本文档对 2026 版 CCL 语料库的规模、结构与分布情况作简要说明。用户若需要获得更详细的关于 CCL 语料库的信息,可以查看或下载文档中章节后附的相关文档。
注意:如果把检索结果的数量作为研究中的关键数据,请谨慎核实。
2026 版 CCL 语料库包括现代汉语语料、古代汉语语料、汉英双语语料和汉语中介语语料四个部分。其中现代汉语、古代汉语两部分收录的语料共计约 140 亿字符 (14,010,340,572 个字符)。
现代汉语语料分为以下三个子库(子库是用户单次检索语料的最大范围):
现代汉语语料各子库的字符数量(单位:字符)如表1所示。
| 子库名称 | 字符数量 |
|---|---|
| 通用语料 | 5,677,781,829 |
| 专项语料 | 10,618,180 |
| 网络语料 | 7,231,337,119 |
| 总计 | 12,919,737,128 |
相关统计结果:
现代汉语语料中不同字符类型的数量及比例如表2所示。
| 类型 | 字符数 | 占比(%) |
|---|---|---|
| 汉字 | 10,975,228,031 | 84.98% |
| 标点 | 1,424,490,021 | 11.03% |
| 数字 | 321,899,557 | 2.49% |
| 其他 | 194,014,771 | 1.50% |
下述结果统计了每种字符在现代汉语语料中的出现频次。
通用语料子库中,不同年代和文体类型下的字符分布情况(单位:字符)如表3所示。
| 年代 | 口语 | 史传 | 应用文 | 报刊 | 文学 | 电视电影 | 相声小品 | 网络语料 | 翻译作品 | 合计 |
|---|---|---|---|---|---|---|---|---|---|---|
| 1870s | - | - | - | - | 58,770 | - | - | - | - | 58,770 |
| 1880s | - | - | - | - | 461,428 | - | - | - | - | 461,428 |
| 1890s | - | - | - | - | 71,821 | - | - | - | - | 71,821 |
| 1900s | - | - | - | - | 909,436 | - | - | - | - | 909,436 |
| 1910s | - | - | - | 121,146 | 3,422,252 | - | - | - | 1,052,108 | 4,595,506 |
| 1920s | - | - | - | 11,310,764 | 11,473,324 | - | - | - | 94,384 | 22,878,472 |
| 1930s | - | - | 198,063 | 10,823,816 | 12,071,435 | - | - | - | 233,322 | 23,326,636 |
| 1940s | - | - | - | 37,178,678 | 5,799,112 | - | - | - | 49,456 | 43,027,246 |
| 1950s | - | 179,582 | - | 207,625,545 | 10,923,738 | 18,968 | - | - | 1,060,255 | 219,808,088 |
| 1960s | - | - | - | 166,666,948 | 2,623,360 | 70,822 | - | - | 1,458,481 | 170,819,611 |
| 1970s | - | - | - | 130,290,526 | 6,063,544 | - | - | - | 926,386 | 137,280,456 |
| 1980s | 180,134 | - | 3,444,180 | 254,048,781 | 11,936,365 | 56,192 | - | - | 8,400,412 | 278,066,064 |
| 1990s | 32,245 | 1,733,382 | 9,478,131 | 462,968,864 | 29,376,597 | 446,463 | - | 70,002 | 18,266,677 | 522,372,361 |
| 2000s | 767,274 | 2,509,550 | 7,457,649 | 672,453,814 | 12,528,785 | 9,406,942 | 1,563,795 | 25,583,352 | 11,246,852 | 743,518,013 |
| 2010s | 3,743,679 | 103,327 | 2,597,110 | 733,965,985 | 960,747 | 65,447 | 9,895 | 2,425,179,699 | 920,885 | 3,167,546,774 |
| 2020s | - | - | - | 338,936,606 | - | - | - | - | - | 338,936,606 |
| 合计 | 4,723,332 | 4,525,841 | 23,175,133 | 3,026,391,473 | 108,680,714 | 10,064,834 | 1,573,690 | 2,450,833,053 | 43,709,218 | 5,673,677,288 |
相关统计结果:
现代汉语语料主要来源于互联网,因此存在一定程度的重复与少量异常字符。处理过程中采用以行为单位的哈希查重方法:即对每一行文本计算哈希值,并将哈希值相同的文本行视为重复行。计算重复行数量及重复率时,忽略文本长度小于50的行,避免误判。
重复情况分为两类:文件内部重复(intra-corpus-duplication)和文件间重复(inter-corpus-duplication)。为提高语料质量,在查重后,对于内部重复率高于 10% 或外部重复率高于 60% 的语料文件,去除其中的重复行,并同步清理明显异常字符。之后,对于其他重复率较高的语料进行人工干预,得到去重后的最终语料。
由于语料来源复杂、规模较大,当前语料中仍可能存在少量重复,相关统计结果供使用者参考。
相关统计结果:
古代汉语语料包括以下四个子库:
古代汉语语料各子库的字符数量(单位:字符)如表4所示。
| 子库名称 | 字符数量 |
|---|---|
| 断代语料 | 95,704,213 |
| 大型丛书 | 46,331,256 |
| 佛道典籍 | 122,170,395 |
| 四库全书 | 826,397,580 |
| 总计 | 1,090,603,444 |
相关统计结果:
列示古代汉语语料中不同字符类型的数量及占比如表5所示。
| 类型 | 字符数 | 占比(%) |
|---|---|---|
| 汉字 | 916,641,532 | 84.05% |
| 标点 | 171,364,206 | 15.71% |
| 数字 | 582,398 | 0.05% |
| 其他 | 2,015,308 | 0.18% |
古代汉语中的断代语料和四库全书语料均覆盖先秦至清代文本。断代语料中各朝代的语料数量如表6所示。
| 朝代 | 总字数 | 朝代 | 总字数 | 朝代 | 总字数 |
|---|---|---|---|---|---|
| 01周 | 124,491 | 06六朝 | 2,920,832 | 11南宋 | 7,351,174 |
| 02春秋 | 461,755 | 07隋 | 227,858 | 12元 | 4,201,362 |
| 03战国 | 1,112,834 | 08唐 | 9,949,310 | 13明 | 13,696,171 |
| 04西汉 | 573,850 | 09五代 | 1,108,481 | 14清 | 33,077,516 |
| 05东汉 | 1,579,269 | 10北宋 | 19,319,310 | 合计 | 95,704,213 |
四库全书语料中各朝代的语料数量如表7所示。
| 朝代 | 总字数 | 朝代 | 总字数 | 朝代 | 总字数 |
|---|---|---|---|---|---|
| 01春秋 | 19,018 | 06南朝梁 | 3,545,330 | 10宋元 | 4,447,496 |
| 02战国 | 11,454 | 06南朝陈 | 59,191 | 11元 | 49,368,196 |
| 03秦 | 24,403 | 06南朝齐 | 22,797 | 11辽 | 292,432 |
| 04汉 | 6,195,949 | 07隋 | 357,464 | 11金 | 2,035,035 |
| 05三国吴 | 312,465 | 08唐 | 31,639,462 | 12明(元) | 117,884 |
| 05三国魏 | 356,552 | 09五代 | 151,598 | 13明 | 158,728,013 |
| 05晋 | 1,790,411 | 09南唐 | 64,166 | 13明清 | 1,294,370 |
| 06北周 | 1,109,605 | 09后晋 | 2,406,478 | 14清 | 106,555,002 |
| 06北魏 | 675,414 | 09后蜀 | 265,887 | 其他 | 240,751,788 |
| 06北齐 | 1,298,445 | 09唐五代 | 24,767 | 合计 | 826,397,580 |
| 06南朝宋 | 2,447,032 | 10宋 | 210,029,476 |
相关统计结果:
古代汉语语料同样进行了自动查重和异常字符清理,清理流程与现代汉语一致。
考虑到古代文献来源复杂、版本差异较大,部分文本之间仍可能存在少量重复。相关统计结果供使用者参考。
相关统计结果:
汉英双语语料包含已完成句对齐的汉语与英语文本。其规模与语料类型分布可通过下列链接查看。
相关统计结果:
汉语中介语语料收录非汉语母语学习者产出的汉语文本及其订正版本。其中16.83%的修改是由人类专家完成的,83.17%的修改是由大语言模型(Deepseek)完成的。
表8列示汉语中介语语料的字符数量(单位:字符)。
| 语料范围 | 字符数量 |
|---|---|
| 订正前语料 | 2,592,468 |
| 订正后语料 | 2,592,398 |
汉语中介语语料库的规模与详细分布情况可通过下列链接查看。
相关统计结果: