汉语中介语语料统计信息说明
2026-05-03 初始版本(数据待更新)
目录
1 概况
汉语中介语语料目前共收录 4,468 个文件,涉及 1,282 名学习者。订正前后字符规模分别为 2,592,468 和 2,592,398,全部版本合计 5,184,866 字;统计到的总修改数为 194,643,总偏误实例为 202,646 次。
1.1 概况摘要
数据来源:overview.txt、correct_type.txt、learners.txt、error_type_distribution_hierarchical.txt
汉语中介语语料概况摘要| 统计项 | 总文件数 | 学习者总人数 | 总修改数 | 总偏误实例 |
|---|
| 数值 | 4,468 | 1,282 | 194,643 | 202,646 |
|---|
1.2 语料规模
数据来源:overview.txt
汉语中介语语料规模概览| 统计项 | 总文件数 | 修改前总字数 | 修改后总字数 | 文件平均字数(修改前) | 文件平均字数(修改后) | 总字数 |
|---|
| 数值 | 4,468 | 2,592,468 | 2,592,398 | 580 | 580 | 5,184,866 |
|---|
1.3 人类专家与大模型文件规模
数据来源:human_llm.txt
人类专家与大模型修改文件规模对比| 修改类型 | 文件数 | 修改前字数 | 修改后字数 |
|---|
| 人类专家修改 | 795 | 362,880 | 372,074 |
|---|
| 大模型修改 | 3,673 | 2,229,588 | 2,220,324 |
|---|
2 学习者统计
数据来源:learners.txt
2.1 学习者总体规模
2.2 学习者国籍分布
学习者国籍分布| 统计项 | 韩国 | 日本 | 泰国 | 蒙古 | 俄罗斯 | 印度尼西亚 | 马来西亚 | 美国 | 朝鲜 | 加拿大 | 哈萨克斯坦 | 新加坡 | 亚美尼亚 | 匈牙利 | 吉尔吉斯斯坦 | 德国 | 缅甸 | 菲律宾 | 中国 | 墨西哥 | 土耳其 | 塞尔维亚 | 委内瑞拉 | 巴拿马 | 罗马尼亚 | 英国 | 阿塞拜疆 | 乌兹别克斯坦 | 巴西 | 摩尔多瓦 | 白俄罗斯 | 秘鲁 | 突尼斯 | 老挝 | 西班牙 | 阿尔巴尼亚 | 丹麦 | 乌克兰 | 刚果民主共和国 | 卢森堡 | 厄瓜多尔 | 奥地利 | 孟加拉国 | 尼泊尔 | 意大利 | 挪威 | 比利时 | 澳大利亚 | 瑞典 | 瑞士 | 瓦努阿图 | 肯尼亚 | 芬兰 | 越南 | 阿富汗 | 未知 |
|---|
| 人数 | 707 | 175 | 71 | 46 | 20 | 18 | 14 | 12 | 11 | 10 | 10 | 10 | 8 | 8 | 7 | 7 | 5 | 5 | 4 | 4 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 72 |
|---|
| 占比 | 55.15% | 13.65% | 5.54% | 3.59% | 1.56% | 1.40% | 1.09% | 0.94% | 0.86% | 0.78% | 0.78% | 0.78% | 0.62% | 0.62% | 0.55% | 0.55% | 0.39% | 0.39% | 0.31% | 0.31% | 0.23% | 0.23% | 0.23% | 0.23% | 0.23% | 0.23% | 0.23% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 5.62% |
|---|
2.3 学习者母语分布
学习者母语分布| 统计项 | 韩语 | 日语 | 泰语 | 蒙古语 | 俄语 | 汉语 | 英语 | 印度尼西亚语 | 朝鲜语 | 西班牙语 | 亚美尼亚语 | 匈牙利语 | 哈萨克语 | 德语 | 缅甸语 | 菲律宾语 | 吉尔吉斯语 | 罗马尼亚语 | 土耳其语 | 塞尔维亚语 | 乌兹别克语 | 墨西哥语 | 日语、汉语 | 法语 | 老挝语 | 越南语 | 阿塞拜疆语 | 阿尔巴尼亚语 | 阿拉伯语 | 丹麦语 | 乌克兰语 | 孟加拉语 | 宿务语 | 尼泊尔语 | 巴拿马语 | 意大利语 | 挪威语 | 摩尔多瓦语 | 斯瓦希里语、英语 | 新加坡语 | 普什图语 | 汉语、俄语 | 瑞典语 | 白俄罗斯语 | 秘鲁语 | 英语、汉语 | 英语、西班牙语 | 葡萄牙语 | 韩语、英语 | 未知 |
|---|
| 人数 | 703 | 170 | 69 | 46 | 26 | 23 | 23 | 18 | 11 | 10 | 8 | 8 | 8 | 8 | 5 | 5 | 4 | 4 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 89 |
|---|
| 占比 | 54.84% | 13.26% | 5.38% | 3.59% | 2.03% | 1.79% | 1.79% | 1.40% | 0.86% | 0.78% | 0.62% | 0.62% | 0.62% | 0.62% | 0.39% | 0.39% | 0.31% | 0.31% | 0.23% | 0.23% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.16% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 0.08% | 6.94% |
|---|
2.4 学习者年龄分布
学习者年龄分布| 统计项 | 12 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 未知 |
|---|
| 人数 | 1 | 710 | 60 | 95 | 101 | 86 | 64 | 41 | 24 | 15 | 7 | 1 | 2 | 1 | 74 |
|---|
| 占比 | 0.08% | 55.38% | 4.68% | 7.41% | 7.88% | 6.71% | 4.99% | 3.20% | 1.87% | 1.17% | 0.55% | 0.08% | 0.16% | 0.08% | 5.77% |
|---|
2.5 学习者学习时长分布
学习者学习时长分布| 统计项 | ≤12个月 | 13-36个月 | 37-60个月 | ≥61个月 | 未知 |
|---|
| 人数 | 14 | 185 | 115 | 136 | 832 |
|---|
| 占比 | 1.09% | 14.43% | 8.97% | 10.61% | 64.90% |
|---|
2.6 学习者学习水平分布(HSK旧版)
学习者学习水平分布(HSK旧版)| 统计项 | 3 | 4 | 6 | 7 | 8 | 9 | 10 | 11 | 未知 |
|---|
| 人数 | 3 | 2 | 5 | 11 | 35 | 17 | 26 | 10 | 1,173 |
|---|
| 占比 | 0.23% | 0.16% | 0.39% | 0.86% | 2.73% | 1.33% | 2.03% | 0.78% | 91.50% |
|---|
2.7 学习者学习水平分布(HSK新版)
学习者学习水平分布(HSK新版)| 统计项 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 未知 |
|---|
| 人数 | 2 | 14 | 56 | 145 | 227 | 200 | 335 | 303 |
|---|
| 占比 | 0.16% | 1.09% | 4.37% | 11.31% | 17.71% | 15.60% | 26.13% | 23.63% |
|---|
3 修改统计
数据来源:correct_type.txt
3.1 修改总量
总体修改量统计| 统计项 | 总文件数 | Replace (替换) | Add (添加) | Delete (删除) | 总修改数 |
|---|
| 数值 | 4,468 | 112,155 | 49,274 | 33,214 | 194,643 |
|---|
3.2 修改类型分布
修改类型分布| 统计项 | Replace | Add | Delete |
|---|
| 数量 | 112,155 | 49,274 | 33,214 |
|---|
| 占比 | 57.6% | 25.3% | 17.1% |
|---|
3.3 按修改方式统计
按修改方式统计| 修改方式 | Replace | Add | Delete | 总计 | 文件数 |
|---|
| 人类专家修改 | 14,765 | 13,734 | 4,260 | 32,759 | 795 |
|---|
| 大模型修改 | 97,390 | 35,540 | 28,954 | 161,884 | 3,673 |
|---|
3.4 修改主体内部占比
不同修改主体的内部修改分布| 修改主体 | Replace 数量 | Replace 占比 | Add 数量 | Add 占比 | Delete 数量 | Delete 占比 |
|---|
| 人类专家修改 | 14,765 | 45.1% | 13,734 | 41.9% | 4,260 | 13.0% |
|---|
| 大模型修改 | 97,390 | 60.2% | 35,540 | 22.0% | 28,954 | 17.9% |
|---|
4 偏误类型统计
说明:层级数据直接来自 error_type_distribution_hierarchical.txt。部分父节点除了已细分的下级项目外,还可能包含未继续下钻的实例,因此子类次数之和不一定与父类总次数完全相等。
数据来源:error_type_distribution_hierarchical.txt
说明:部分偏误标注并不一定标注子类,例如标注者标注了“词语-动词“,可能并未标注具体属于某一动词子类,因此子类占上级比例之和不一定等于100%。
4.1 偏误类型五大类总览
偏误类型五大类总览| 统计项 | 句式 | 复句 | 标点符号 | 词语 | 错别字 |
|---|
| 次数 | 3,719 | 4,607 | 29,245 | 161,675 | 11,335 |
|---|
| 占总偏误比例 | 1.84% | 2.27% | 14.43% | 79.78% | 5.59% |
|---|
句式
该节点累计 3,719 次,直接子类 39 个。
句式子类分布| 统计项 | 主动句 | 主动句语序 | 主谓句 | 主谓句式 | 主谓句语序 | 主谓谓语句 | 伴随句式 | 使动句 | 使役句 | 其他句式 | 兼语句 | 判断句 | 双重否定句 | 反问句 | 句子 | 句子成分 | 否定句 | 命令句 | 固定句式 | 存现句 | 并列句 | 并列句式 | 强调句 | 得字句 | 感叹句 | 把字句 | 是非问句 | 正反问句 | 比喻句 | 比较句 | 特指问句 | 疑问句 | 目的句式 | 被动句 | 连动句 | 连字句 | 选择问句 | 陈述句 | �字句 |
|---|
| 次数 | 3 | 1 | 75 | 1 | 1 | 42 | 1 | 31 | 72 | 1 | 131 | 6 | 1 | 26 | 11 | 4 | 1 | 22 | 338 | 246 | 4 | 1 | 426 | 10 | 1 | 298 | 3 | 49 | 2 | 142 | 19 | 103 | 2 | 275 | 354 | 18 | 15 | 119 | 2 |
|---|
| 占上级比例 | 0.08% | 0.03% | 2.02% | 0.03% | 0.03% | 1.13% | 0.03% | 0.83% | 1.94% | 0.03% | 3.52% | 0.16% | 0.03% | 0.70% | 0.30% | 0.11% | 0.03% | 0.59% | 9.09% | 6.61% | 0.11% | 0.03% | 11.45% | 0.27% | 0.03% | 8.01% | 0.08% | 1.32% | 0.05% | 3.82% | 0.51% | 2.77% | 0.05% | 7.39% | 9.52% | 0.48% | 0.40% | 3.20% | 0.05% |
|---|
| 占总偏误比例 | 0.00% | 0.00% | 0.04% | 0.00% | 0.00% | 0.02% | 0.00% | 0.02% | 0.04% | 0.00% | 0.06% | 0.00% | 0.00% | 0.01% | 0.01% | 0.00% | 0.00% | 0.01% | 0.17% | 0.12% | 0.00% | 0.00% | 0.21% | 0.00% | 0.00% | 0.15% | 0.00% | 0.02% | 0.00% | 0.07% | 0.01% | 0.05% | 0.00% | 0.14% | 0.17% | 0.01% | 0.01% | 0.06% | 0.00% |
|---|
复句
该节点累计 4,607 次,直接子类 12 个。
复句子类分布| 统计项 | 因果复句 | 并列复句 | 承接复句 | 条件复句 | 注解复句 | 目的复句 | 解说复句 | 让步复句 | 转折复句 | 选择复句 | 递进复句 | 重复句 |
|---|
| 次数 | 902 | 146 | 321 | 558 | 23 | 88 | 93 | 171 | 1,719 | 168 | 410 | 1 |
|---|
| 占上级比例 | 19.58% | 3.17% | 6.97% | 12.11% | 0.50% | 1.91% | 2.02% | 3.71% | 37.31% | 3.65% | 8.90% | 0.02% |
|---|
| 占总偏误比例 | 0.45% | 0.07% | 0.16% | 0.28% | 0.01% | 0.04% | 0.05% | 0.08% | 0.85% | 0.08% | 0.20% | 0.00% |
|---|
词语
该节点累计 161,675 次,直接子类 35 个。
词语子类分布| 统计项 | 主语 | 主谓短语 | 介宾短语 | 介词 | 介词短语 | 代词 | 偏正短语 | 其他 | 其他短语 | 副词 | 动宾短语 | 动词 | 助词 | 名词 | 固定短语 | 定中短语 | 宾语 | 并列短语 | 形容词 | 形容词短语 | 数词 | 数量短语 | 方位短语 | 方位词 | 时间短语 | 比况短语 | 比较短语 | 的字短语 | 短语 | 补语 | 表现 | 连词 | 述补结构 | 量词 | 量词短语 |
|---|
| 次数 | 799 | 25 | 2 | 9,364 | 698 | 12,675 | 13 | 3,199 | 1 | 22,360 | 6 | 44,376 | 23,546 | 22,828 | 61 | 1 | 220 | 6 | 8,795 | 8 | 936 | 2,699 | 583 | 4,038 | 4 | 2 | 1 | 690 | 1,524 | 1,925 | 2,303 | 11,664 | 257 | 1,702 | 465 |
|---|
| 占上级比例 | 0.49% | 0.02% | 0.00% | 5.79% | 0.43% | 7.84% | 0.01% | 1.98% | 0.00% | 13.83% | 0.00% | 27.45% | 14.56% | 14.12% | 0.04% | 0.00% | 0.14% | 0.00% | 5.44% | 0.00% | 0.58% | 1.67% | 0.36% | 2.50% | 0.00% | 0.00% | 0.00% | 0.43% | 0.94% | 1.19% | 1.42% | 7.21% | 0.16% | 1.05% | 0.29% |
|---|
| 占总偏误比例 | 0.39% | 0.01% | 0.00% | 4.62% | 0.34% | 6.25% | 0.01% | 1.58% | 0.00% | 11.03% | 0.00% | 21.90% | 11.62% | 11.26% | 0.03% | 0.00% | 0.11% | 0.00% | 4.34% | 0.00% | 0.46% | 1.33% | 0.29% | 1.99% | 0.00% | 0.00% | 0.00% | 0.34% | 0.75% | 0.95% | 1.14% | 5.76% | 0.13% | 0.84% | 0.23% |
|---|
词语 > 介词
该节点累计 9,364 次,直接子类 7 个。
词语 > 介词子类分布| 统计项 | 依据 | 其他(添加、除外、利用) | 原因 | 对象 | 工具 | 时间 | 空间 |
|---|
| 次数 | 603 | 110 | 412 | 2,437 | 259 | 1,450 | 1,598 |
|---|
| 占上级比例 | 6.44% | 1.17% | 4.40% | 26.03% | 2.77% | 15.48% | 17.07% |
|---|
| 占总偏误比例 | 0.30% | 0.05% | 0.20% | 1.20% | 0.13% | 0.72% | 0.79% |
|---|
词语 > 代词
该节点累计 12,675 次,直接子类 3 个。
词语 > 代词子类分布| 统计项 | 人称代词 | 指示代词 | 疑问代词 |
|---|
| 次数 | 7,029 | 4,914 | 536 |
|---|
| 占上级比例 | 55.46% | 38.77% | 4.23% |
|---|
| 占总偏误比例 | 3.47% | 2.42% | 0.26% |
|---|
词语 > 副词
该节点累计 22,360 次,直接子类 9 个。
词语 > 副词子类分布| 统计项 | 关联副词 | 否定副词 | 情态副词 | 时间副词 | 程度副词 | 肯定副词 | 范围副词 | 语气副词 | 频率副词 |
|---|
| 次数 | 4,945 | 1,281 | 920 | 4,331 | 3,032 | 490 | 2,525 | 3,253 | 858 |
|---|
| 占上级比例 | 22.12% | 5.73% | 4.11% | 19.37% | 13.56% | 2.19% | 11.29% | 14.55% | 3.84% |
|---|
| 占总偏误比例 | 2.44% | 0.63% | 0.45% | 2.14% | 1.50% | 0.24% | 1.25% | 1.61% | 0.42% |
|---|
词语 > 动词
该节点累计 44,376 次,直接子类 12 个。
词语 > 动词子类分布| 统计项 | 不及物动词 | 使令动词 | 关系动词 | 动作动词 | 及物动词 | 双宾动词 | 存现动词 | 心理动词 | 状态动词 | 能愿动词 | 趋向动词 | 重叠动词 |
|---|
| 次数 | 751 | 972 | 2,667 | 11,279 | 10,828 | 40 | 2,142 | 2,721 | 1,050 | 5,744 | 2,905 | 284 |
|---|
| 占上级比例 | 1.69% | 2.19% | 6.01% | 25.42% | 24.40% | 0.09% | 4.83% | 6.13% | 2.37% | 12.94% | 6.55% | 0.64% |
|---|
| 占总偏误比例 | 0.37% | 0.48% | 1.32% | 5.57% | 5.34% | 0.02% | 1.06% | 1.34% | 0.52% | 2.83% | 1.43% | 0.14% |
|---|
词语 > 助词
该节点累计 23,546 次,直接子类 8 个。
词语 > 助词子类分布| 统计项 | 其他助词 | 列举助词 | 动态助词 | 时态助词 | 比况助词 | 结构助词 | 表数助词 | 语气助词 |
|---|
| 次数 | 928 | 336 | 6,173 | 663 | 297 | 12,344 | 313 | 2,420 |
|---|
| 占上级比例 | 3.94% | 1.43% | 26.22% | 2.82% | 1.26% | 52.43% | 1.33% | 10.28% |
|---|
| 占总偏误比例 | 0.46% | 0.17% | 3.05% | 0.33% | 0.15% | 6.09% | 0.15% | 1.19% |
|---|
词语 > 助词 > 动态助词
该节点累计 6,173 次,直接子类 3 个。
词语 > 助词 > 动态助词子类分布| 统计项 | 了 | 着 | 过 |
|---|
| 次数 | 553 | 84 | 33 |
|---|
| 占上级比例 | 8.96% | 1.36% | 0.53% |
|---|
| 占总偏误比例 | 0.27% | 0.04% | 0.02% |
|---|
词语 > 助词 > 结构助词
该节点累计 12,344 次,直接子类 3 个。
词语 > 助词 > 结构助词子类分布| 统计项 | 地 | 得 | 的 |
|---|
| 次数 | 253 | 101 | 992 |
|---|
| 占上级比例 | 2.05% | 0.82% | 8.04% |
|---|
| 占总偏误比例 | 0.12% | 0.05% | 0.49% |
|---|
词语 > 名词
该节点累计 22,828 次,直接子类 2 个。
词语 > 名词子类分布| 统计项 | 处所名词 | 时间名词 |
|---|
| 次数 | 567 | 2,173 |
|---|
| 占上级比例 | 2.48% | 9.52% |
|---|
| 占总偏误比例 | 0.28% | 1.07% |
|---|
词语 > 数词
该节点累计 936 次,直接子类 4 个。
词语 > 数词子类分布| 统计项 | 序数词 | 数词短语 | 数量 | 表数 |
|---|
| 次数 | 1 | 1 | 1 | 1 |
|---|
| 占上级比例 | 0.11% | 0.11% | 0.11% | 0.11% |
|---|
| 占总偏误比例 | 0.00% | 0.00% | 0.00% | 0.00% |
|---|
词语 > 方位词
该节点累计 4,038 次,直接子类 1 个。
词语 > 方位词子类分布| 统计项 | 方位 |
|---|
| 次数 | 23 |
|---|
| 占上级比例 | 0.57% |
|---|
| 占总偏误比例 | 0.01% |
|---|
词语 > 补语
该节点累计 1,925 次,直接子类 8 个。
词语 > 补语子类分布| 统计项 | 介词句补语 | 可能补语 | 情态补语 | 数量补语 | 方位补语 | 程度补语 | 结果补语 | 趋向补语 |
|---|
| 次数 | 2 | 159 | 141 | 258 | 10 | 120 | 705 | 433 |
|---|
| 占上级比例 | 0.10% | 8.26% | 7.32% | 13.40% | 0.52% | 6.23% | 36.62% | 22.49% |
|---|
| 占总偏误比例 | 0.00% | 0.08% | 0.07% | 0.13% | 0.00% | 0.06% | 0.35% | 0.21% |
|---|
词语 > 连词
该节点累计 11,664 次,直接子类 2 个。
词语 > 连词子类分布| 统计项 | 从属接续关系 | 等位接续关系 |
|---|
| 次数 | 2,930 | 3,877 |
|---|
| 占上级比例 | 25.12% | 33.24% |
|---|
| 占总偏误比例 | 1.45% | 1.91% |
|---|
词语 > 量词
该节点累计 1,702 次,直接子类 1 个。
词语 > 量词子类分布| 统计项 | 数量词 |
|---|
| 次数 | 68 |
|---|
| 占上级比例 | 4.00% |
|---|
| 占总偏误比例 | 0.03% |
|---|