CCL语料库统计信息说明

2026-04-16

本文档对 2026 版 CCL 语料库的规模、结构与分布情况作简要说明。用户若需要获得更详细的关于 CCL 语料库的信息,可以查看或下载文档中章节后附的相关文档。

注意:如果把检索结果的数量作为研究中的关键数据,请谨慎核实。

目录

CCL2026版语料库概况

2026 版 CCL 语料库包括现代汉语语料、古代汉语语料、汉英双语语料和汉语中介语语料四个部分。其中现代汉语、古代汉语两部分收录的语料共计约 140 亿字符 (14,010,340,572 个字符)。

1 现代汉语语料

现代汉语语料分为以下三个子库(子库是用户单次检索语料的最大范围):

  1. 通用语料:来源广泛,覆盖19世纪70年代至今的各个时期和多种文体。该子库标注了生成时间和文体类型。
  2. 专项语料:来源于特定文本集合,目前收录学术中文语料(Corpus of Written Academic Chinese,语料文件路径中记为CWAC)一类。
  3. 网络语料:来源于互联网文本,经抽样及清洗处理形成,目前收录由北京智源人工智能研究院(智源研究院)构建的WuDaoCorpora语料(语料文件路径记为BAAI-Wudao)一类。关于BAAI-Wudao语料的更多信息,用户可以查阅对WuDaoCorpora-Text的介绍

1.1 字符规模统计

现代汉语语料各子库的字符数量(单位:字符)如表1所示。

现代汉语语料各子库字符规模统计(单位:字符)
子库名称 字符数量
通用语料 5,677,781,829
专项语料 10,618,180
网络语料 7,231,337,119
总计 12,919,737,128

相关统计结果:

1.2 字符类型分布

现代汉语语料中不同字符类型的数量及比例如表2所示。

现代汉语语料字符类型分布
类型 字符数 占比(%)
汉字 10,975,228,031 84.98%
标点 1,424,490,021 11.03%
数字 321,899,557 2.49%
其他 194,014,771 1.50%

下述结果统计了每种字符在现代汉语语料中的出现频次。

相关统计结果:

1.3 分时代与文体分布

通用语料子库中,不同年代和文体类型下的字符分布情况(单位:字符)如表3所示。

现代汉语通用语料分年代、分文体类型字符统计(单位:字符)
年代 口语 史传 应用文 报刊 文学 电视电影 相声小品 网络语料 翻译作品 合计
1870s - - - - 58,770 - - - - 58,770
1880s - - - - 461,428 - - - - 461,428
1890s - - - - 71,821 - - - - 71,821
1900s - - - - 909,436 - - - - 909,436
1910s - - - 121,146 3,422,252 - - - 1,052,108 4,595,506
1920s - - - 11,310,764 11,473,324 - - - 94,384 22,878,472
1930s - - 198,063 10,823,816 12,071,435 - - - 233,322 23,326,636
1940s - - - 37,178,678 5,799,112 - - - 49,456 43,027,246
1950s - 179,582 - 207,625,545 10,923,738 18,968 - - 1,060,255 219,808,088
1960s - - - 166,666,948 2,623,360 70,822 - - 1,458,481 170,819,611
1970s - - - 130,290,526 6,063,544 - - - 926,386 137,280,456
1980s 180,134 - 3,444,180 254,048,781 11,936,365 56,192 - - 8,400,412 278,066,064
1990s 32,245 1,733,382 9,478,131 462,968,864 29,376,597 446,463 - 70,002 18,266,677 522,372,361
2000s 767,274 2,509,550 7,457,649 672,453,814 12,528,785 9,406,942 1,563,795 25,583,352 11,246,852 743,518,013
2010s 3,743,679 103,327 2,597,110 733,965,985 960,747 65,447 9,895 2,425,179,699 920,885 3,167,546,774
2020s - - - 338,936,606 - - - - - 338,936,606
合计 4,723,332 4,525,841 23,175,133 3,026,391,473 108,680,714 10,064,834 1,573,690 2,450,833,053 43,709,218 5,673,677,288

相关统计结果:

1.4 语料查重

现代汉语语料主要来源于互联网,因此存在一定程度的重复与少量异常字符。处理过程中采用以行为单位的哈希查重方法:即对每一行文本计算哈希值,并将哈希值相同的文本行视为重复行。计算重复行数量及重复率时,忽略文本长度小于50的行,避免误判。

重复情况分为两类:文件内部重复(intra-corpus-duplication)和文件间重复(inter-corpus-duplication)。为提高语料质量,在查重后,对于内部重复率高于 10% 或外部重复率高于 60% 的语料文件,去除其中的重复行,并同步清理明显异常字符。之后,对于其他重复率较高的语料进行人工干预,得到去重后的最终语料。

由于语料来源复杂、规模较大,当前语料中仍可能存在少量重复,相关统计结果供使用者参考。

相关统计结果:

2 古代汉语语料

古代汉语语料包括以下四个子库:

  1. 断代语料:覆盖历朝历代文本的语料。该子库标注了朝代信息。
  2. 大型丛书:包括《十三经注疏》(经部)、《二十五史》(史部)和《诸子百家》(子部)三类经典文献。
  3. 佛道典籍:包括《道藏》与《大藏经》中的文献。
  4. 四库全书:来源于《四库全书》的语料。该子库标注了朝代信息。

2.1 字符规模统计

古代汉语语料各子库的字符数量(单位:字符)如表4所示。

古代汉语语料各子库字符规模统计(单位:字符)
子库名称 字符数量
断代语料 95,704,213
大型丛书 46,331,256
佛道典籍 122,170,395
四库全书 826,397,580
总计 1,090,603,444

相关统计结果:

2.2 字符类型分布

列示古代汉语语料中不同字符类型的数量及占比如表5所示。

古代汉语语料字符类型分布
类型 字符数 占比(%)
汉字 916,641,532 84.05%
标点 171,364,206 15.71%
数字 582,398 0.05%
其他 2,015,308 0.18%

相关统计结果:

2.3 分时代分布

古代汉语中的断代语料和四库全书语料均覆盖先秦至清代文本。断代语料中各朝代的语料数量如表6所示。

断代语料各朝代字符统计
朝代 总字数 朝代 总字数 朝代 总字数
01周 124,491 06六朝 2,920,832 11南宋 7,351,174
02春秋 461,755 07隋 227,858 12元 4,201,362
03战国 1,112,834 08唐 9,949,310 13明 13,696,171
04西汉 573,850 09五代 1,108,481 14清 33,077,516
05东汉 1,579,269 10北宋 19,319,310 合计 95,704,213

四库全书语料中各朝代的语料数量如表7所示。

四库全书语料各朝代字符统计
朝代 总字数 朝代 总字数 朝代 总字数
01春秋 19,018 06南朝梁 3,545,330 10宋元 4,447,496
02战国 11,454 06南朝陈 59,191 11元 49,368,196
03秦 24,403 06南朝齐 22,797 11辽 292,432
04汉 6,195,949 07隋 357,464 11金 2,035,035
05三国吴 312,465 08唐 31,639,462 12明(元) 117,884
05三国魏 356,552 09五代 151,598 13明 158,728,013
05晋 1,790,411 09南唐 64,166 13明清 1,294,370
06北周 1,109,605 09后晋 2,406,478 14清 106,555,002
06北魏 675,414 09后蜀 265,887 其他 240,751,788
06北齐 1,298,445 09唐五代 24,767 合计 826,397,580
06南朝宋 2,447,032 10宋 210,029,476

相关统计结果:

2.4 语料查重

古代汉语语料同样进行了自动查重和异常字符清理,清理流程与现代汉语一致。

考虑到古代文献来源复杂、版本差异较大,部分文本之间仍可能存在少量重复。相关统计结果供使用者参考。

相关统计结果:

3 汉英双语语料

汉英双语语料包含已完成句对齐的汉语与英语文本。其规模与语料类型分布可通过下列链接查看。

相关统计结果:

4 汉语中介语语料

汉语中介语语料收录非汉语母语学习者产出的汉语文本及其订正版本。其中16.83%的修改是由人类专家完成的,83.17%的修改是由大语言模型(Deepseek)完成的。

表8列示汉语中介语语料的字符数量(单位:字符)。

汉语中介语语料字符规模统计(单位:字符)
语料范围 字符数量
订正前语料 2,592,468
订正后语料 2,592,398

汉语中介语语料库的规模与详细分布情况可通过下列链接查看。

相关统计结果: