汉语中介语语料统计信息说明

2026-05-03 初始版本(数据待更新)

目录

1 概况

汉语中介语语料目前共收录 4,468 个文件,涉及 1,282 名学习者。订正前后字符规模分别为 2,592,468 和 2,592,398,全部版本合计 5,184,866 字;统计到的总修改数为 194,643,总偏误实例为 202,646 次。

1.1 概况摘要

数据来源:overview.txtcorrect_type.txtlearners.txterror_type_distribution_hierarchical.txt

汉语中介语语料概况摘要
统计项总文件数学习者总人数总修改数总偏误实例
数值4,4681,282194,643202,646

1.2 语料规模

数据来源:overview.txt

汉语中介语语料规模概览
统计项总文件数修改前总字数修改后总字数文件平均字数(修改前)文件平均字数(修改后)总字数
数值4,4682,592,4682,592,3985805805,184,866

1.3 人类专家与大模型文件规模

数据来源:human_llm.txt

人类专家与大模型修改文件规模对比
修改类型文件数修改前字数修改后字数
人类专家修改795362,880372,074
大模型修改3,6732,229,5882,220,324

2 学习者统计

数据来源:learners.txt

2.1 学习者总体规模

学习者总体规模
统计项学习者总人数
数值1,282

2.2 学习者国籍分布

学习者国籍分布
统计项韩国日本泰国蒙古俄罗斯印度尼西亚马来西亚美国朝鲜加拿大哈萨克斯坦新加坡亚美尼亚匈牙利吉尔吉斯斯坦德国缅甸菲律宾中国墨西哥土耳其塞尔维亚委内瑞拉巴拿马罗马尼亚英国阿塞拜疆乌兹别克斯坦巴西摩尔多瓦白俄罗斯秘鲁突尼斯老挝西班牙阿尔巴尼亚丹麦乌克兰刚果民主共和国卢森堡厄瓜多尔奥地利孟加拉国尼泊尔意大利挪威比利时澳大利亚瑞典瑞士瓦努阿图肯尼亚芬兰越南阿富汗未知
人数70717571462018141211101010887755443333333222222222111111111111111111172
占比55.15%13.65%5.54%3.59%1.56%1.40%1.09%0.94%0.86%0.78%0.78%0.78%0.62%0.62%0.55%0.55%0.39%0.39%0.31%0.31%0.23%0.23%0.23%0.23%0.23%0.23%0.23%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%5.62%

2.3 学习者母语分布

学习者母语分布
统计项韩语日语泰语蒙古语俄语汉语英语印度尼西亚语朝鲜语西班牙语亚美尼亚语匈牙利语哈萨克语德语缅甸语菲律宾语吉尔吉斯语罗马尼亚语土耳其语塞尔维亚语乌兹别克语墨西哥语日语、汉语法语老挝语越南语阿塞拜疆语阿尔巴尼亚语阿拉伯语丹麦语乌克兰语孟加拉语宿务语尼泊尔语巴拿马语意大利语挪威语摩尔多瓦语斯瓦希里语、英语新加坡语普什图语汉语、俄语瑞典语白俄罗斯语秘鲁语英语、汉语英语、西班牙语葡萄牙语韩语、英语未知
人数703170694626232318111088885544332222222221111111111111111111189
占比54.84%13.26%5.38%3.59%2.03%1.79%1.79%1.40%0.86%0.78%0.62%0.62%0.62%0.62%0.39%0.39%0.31%0.31%0.23%0.23%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.16%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%0.08%6.94%

2.4 学习者年龄分布

学习者年龄分布
统计项1217181920212223242526272829未知
人数171060951018664412415712174
占比0.08%55.38%4.68%7.41%7.88%6.71%4.99%3.20%1.87%1.17%0.55%0.08%0.16%0.08%5.77%

2.5 学习者学习时长分布

学习者学习时长分布
统计项≤12个月13-36个月37-60个月≥61个月未知
人数14185115136832
占比1.09%14.43%8.97%10.61%64.90%

2.6 学习者学习水平分布(HSK旧版)

学习者学习水平分布(HSK旧版)
统计项3467891011未知
人数32511351726101,173
占比0.23%0.16%0.39%0.86%2.73%1.33%2.03%0.78%91.50%

2.7 学习者学习水平分布(HSK新版)

学习者学习水平分布(HSK新版)
统计项0123456未知
人数21456145227200335303
占比0.16%1.09%4.37%11.31%17.71%15.60%26.13%23.63%

3 修改统计

数据来源:correct_type.txt

3.1 修改总量

总体修改量统计
统计项总文件数Replace (替换)Add (添加)Delete (删除)总修改数
数值4,468112,15549,27433,214194,643

3.2 修改类型分布

修改类型分布
统计项ReplaceAddDelete
数量112,15549,27433,214
占比57.6%25.3%17.1%

3.3 按修改方式统计

按修改方式统计
修改方式ReplaceAddDelete总计文件数
人类专家修改14,76513,7344,26032,759795
大模型修改97,39035,54028,954161,8843,673

3.4 修改主体内部占比

不同修改主体的内部修改分布
修改主体Replace 数量Replace 占比Add 数量Add 占比Delete 数量Delete 占比
人类专家修改14,76545.1%13,73441.9%4,26013.0%
大模型修改97,39060.2%35,54022.0%28,95417.9%

4 偏误类型统计

说明:层级数据直接来自 error_type_distribution_hierarchical.txt。部分父节点除了已细分的下级项目外,还可能包含未继续下钻的实例,因此子类次数之和不一定与父类总次数完全相等。

数据来源:error_type_distribution_hierarchical.txt

说明:部分偏误标注并不一定标注子类,例如标注者标注了“词语-动词“,可能并未标注具体属于某一动词子类,因此子类占上级比例之和不一定等于100%。

4.1 偏误类型五大类总览

偏误类型五大类总览
统计项句式复句标点符号词语错别字
次数3,7194,60729,245161,67511,335
占总偏误比例1.84%2.27%14.43%79.78%5.59%

句式

该节点累计 3,719 次,直接子类 39 个。

句式子类分布
统计项主动句主动句语序主谓句主谓句式主谓句语序主谓谓语句伴随句式使动句使役句其他句式兼语句判断句双重否定句反问句句子句子成分否定句命令句固定句式存现句并列句并列句式强调句得字句感叹句把字句是非问句正反问句比喻句比较句特指问句疑问句目的句式被动句连动句连字句选择问句陈述句�字句
次数31751142131721131612611412233824641426101298349214219103227535418151192
占上级比例0.08%0.03%2.02%0.03%0.03%1.13%0.03%0.83%1.94%0.03%3.52%0.16%0.03%0.70%0.30%0.11%0.03%0.59%9.09%6.61%0.11%0.03%11.45%0.27%0.03%8.01%0.08%1.32%0.05%3.82%0.51%2.77%0.05%7.39%9.52%0.48%0.40%3.20%0.05%
占总偏误比例0.00%0.00%0.04%0.00%0.00%0.02%0.00%0.02%0.04%0.00%0.06%0.00%0.00%0.01%0.01%0.00%0.00%0.01%0.17%0.12%0.00%0.00%0.21%0.00%0.00%0.15%0.00%0.02%0.00%0.07%0.01%0.05%0.00%0.14%0.17%0.01%0.01%0.06%0.00%

复句

该节点累计 4,607 次,直接子类 12 个。

复句子类分布
统计项因果复句并列复句承接复句条件复句注解复句目的复句解说复句让步复句转折复句选择复句递进复句重复句
次数9021463215582388931711,7191684101
占上级比例19.58%3.17%6.97%12.11%0.50%1.91%2.02%3.71%37.31%3.65%8.90%0.02%
占总偏误比例0.45%0.07%0.16%0.28%0.01%0.04%0.05%0.08%0.85%0.08%0.20%0.00%

词语

该节点累计 161,675 次,直接子类 35 个。

词语子类分布
统计项主语主谓短语介宾短语介词介词短语代词偏正短语其他其他短语副词动宾短语动词助词名词固定短语定中短语宾语并列短语形容词形容词短语数词数量短语方位短语方位词时间短语比况短语比较短语的字短语短语补语表现连词述补结构量词量词短语
次数7992529,36469812,675133,199122,360644,37623,54622,82861122068,79589362,6995834,0384216901,5241,9252,30311,6642571,702465
占上级比例0.49%0.02%0.00%5.79%0.43%7.84%0.01%1.98%0.00%13.83%0.00%27.45%14.56%14.12%0.04%0.00%0.14%0.00%5.44%0.00%0.58%1.67%0.36%2.50%0.00%0.00%0.00%0.43%0.94%1.19%1.42%7.21%0.16%1.05%0.29%
占总偏误比例0.39%0.01%0.00%4.62%0.34%6.25%0.01%1.58%0.00%11.03%0.00%21.90%11.62%11.26%0.03%0.00%0.11%0.00%4.34%0.00%0.46%1.33%0.29%1.99%0.00%0.00%0.00%0.34%0.75%0.95%1.14%5.76%0.13%0.84%0.23%

词语 > 介词

该节点累计 9,364 次,直接子类 7 个。

词语 > 介词子类分布
统计项依据其他(添加、除外、利用)原因对象工具时间空间
次数6031104122,4372591,4501,598
占上级比例6.44%1.17%4.40%26.03%2.77%15.48%17.07%
占总偏误比例0.30%0.05%0.20%1.20%0.13%0.72%0.79%

词语 > 代词

该节点累计 12,675 次,直接子类 3 个。

词语 > 代词子类分布
统计项人称代词指示代词疑问代词
次数7,0294,914536
占上级比例55.46%38.77%4.23%
占总偏误比例3.47%2.42%0.26%

词语 > 副词

该节点累计 22,360 次,直接子类 9 个。

词语 > 副词子类分布
统计项关联副词否定副词情态副词时间副词程度副词肯定副词范围副词语气副词频率副词
次数4,9451,2819204,3313,0324902,5253,253858
占上级比例22.12%5.73%4.11%19.37%13.56%2.19%11.29%14.55%3.84%
占总偏误比例2.44%0.63%0.45%2.14%1.50%0.24%1.25%1.61%0.42%

词语 > 动词

该节点累计 44,376 次,直接子类 12 个。

词语 > 动词子类分布
统计项不及物动词使令动词关系动词动作动词及物动词双宾动词存现动词心理动词状态动词能愿动词趋向动词重叠动词
次数7519722,66711,27910,828402,1422,7211,0505,7442,905284
占上级比例1.69%2.19%6.01%25.42%24.40%0.09%4.83%6.13%2.37%12.94%6.55%0.64%
占总偏误比例0.37%0.48%1.32%5.57%5.34%0.02%1.06%1.34%0.52%2.83%1.43%0.14%

词语 > 助词

该节点累计 23,546 次,直接子类 8 个。

词语 > 助词子类分布
统计项其他助词列举助词动态助词时态助词比况助词结构助词表数助词语气助词
次数9283366,17366329712,3443132,420
占上级比例3.94%1.43%26.22%2.82%1.26%52.43%1.33%10.28%
占总偏误比例0.46%0.17%3.05%0.33%0.15%6.09%0.15%1.19%
词语 > 助词 > 动态助词

该节点累计 6,173 次,直接子类 3 个。

词语 > 助词 > 动态助词子类分布
统计项
次数5538433
占上级比例8.96%1.36%0.53%
占总偏误比例0.27%0.04%0.02%
词语 > 助词 > 结构助词

该节点累计 12,344 次,直接子类 3 个。

词语 > 助词 > 结构助词子类分布
统计项
次数253101992
占上级比例2.05%0.82%8.04%
占总偏误比例0.12%0.05%0.49%

词语 > 名词

该节点累计 22,828 次,直接子类 2 个。

词语 > 名词子类分布
统计项处所名词时间名词
次数5672,173
占上级比例2.48%9.52%
占总偏误比例0.28%1.07%

词语 > 数词

该节点累计 936 次,直接子类 4 个。

词语 > 数词子类分布
统计项序数词数词短语数量表数
次数1111
占上级比例0.11%0.11%0.11%0.11%
占总偏误比例0.00%0.00%0.00%0.00%

词语 > 方位词

该节点累计 4,038 次,直接子类 1 个。

词语 > 方位词子类分布
统计项方位
次数23
占上级比例0.57%
占总偏误比例0.01%

词语 > 补语

该节点累计 1,925 次,直接子类 8 个。

词语 > 补语子类分布
统计项介词句补语可能补语情态补语数量补语方位补语程度补语结果补语趋向补语
次数215914125810120705433
占上级比例0.10%8.26%7.32%13.40%0.52%6.23%36.62%22.49%
占总偏误比例0.00%0.08%0.07%0.13%0.00%0.06%0.35%0.21%

词语 > 连词

该节点累计 11,664 次,直接子类 2 个。

词语 > 连词子类分布
统计项从属接续关系等位接续关系
次数2,9303,877
占上级比例25.12%33.24%
占总偏误比例1.45%1.91%

词语 > 量词

该节点累计 1,702 次,直接子类 1 个。

词语 > 量词子类分布
统计项数量词
次数68
占上级比例4.00%
占总偏误比例0.03%