日期:2026-04-01
这一小节介绍查询表达式的形式规范及不同类型查询表达式的功能。
查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依次介绍。
查询表达式中可以使用的特殊符号共13个。如下表所示:
| 序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 符号 | 空格 | | | $ | # | + | - | ~ | ! | : | [ | ] | ( | ) |
这些符号均为半角西文字符,按照用法和功能,可分为5组。下表中用Operator1,Operator2,……来表示这5组操作符。
表中A、B、C等表示任意字符串(不含操作符);Number表示0和正整数;m、n表示0和正整数,m≤n。KEY表示系统预留关键字。
| 序号 | 符号 | 用法/语法形式 | 查询功能说明 |
|---|---|---|---|
| Operator1 | 空格 |
A B A B C… |
Operator1是二元操作符,用于构成“简单项”(参见1.3)。 |
| | |
A|B A|B|C|… |
||
| Operator2 | $ | A$NumberB | Operator2是二元操作符,它必须跟整数连用,用于构成“复杂项”(参见1.4)。 |
| # | A#NumberB | ||
| + | A+NumberB | ||
| - | A-NumberB | ||
| ~ | A~NumberB | ||
| Operator3 | ! | !A | Operator3是一元操作符,用于标记其后的基本项在查询结果显示页面居中高亮。 |
| Operator4 | : |
KEY:A KEY:[A B] KEY:[A|B] |
Operator4是二元操作符,用于构成“过滤项”(参见1.5)。 |
| Operator5 | [ - ] | A$[m-n]B | 用于 $ 操作符之后标记数值范围。 |
| [ ] |
KEY:[A B] KEY:[A|B] |
用于在 : 操作符之后标记简单项。 | |
| ( ) |
(普通查询中)(A) (模式查询中)(X) |
可在模式查询中标记变项,或在普通查询中标记简单项。 |
各操作符的含义如下:
| 序号 | 符号 | 说明 |
| 1 | 空格 | 相当于逻辑中的“并”关系。例如,查询表达式“把 被”会查询到同时包含“把”和“被”的自然段,两个关键词都需要在一个自然段内出现,无次序限制,无距离限制。输出中被高亮的词是“把”,“被”不会被高亮。 |
| 2 | | | 相当于逻辑中的“或”关系。例如,查询表达式“把|被”会查询到所有包含“把”或“被”的自然段,两个关键字只需有一个在自然段中出现,该句子就作为查询结果输出。输出中被高亮的词是“把”或者“被”。 |
| 3 | $ | 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数小于或等于Number。 |
| 4 | # | 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number。 |
| 5 | + | 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数刚好等于Number。 |
| 6 | - | 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。 |
| 7 | ~ | 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。 |
| 8 | ! | 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。 |
| 9 | : | 用于path,author,name,type,pattern 等关键字后面,分隔关键字和它们的取值。 |
| 10 | [ - ] | 用于 $ 操作符之后,指定字符间隔数值范围。 |
| 11 | [ ] | 用于 : 操作符之后,标记过滤项取值。 |
| 12 | ( ) |
用于模式查询表达式中,标记变项; 用于普通查询表达式中,标记简单项。 |
注意:
指连续字符串,字符串中不包含1.1所定义的查询表达式需要用到的特殊符号(包括空格)。
简单项可以由以下三种形式的序列组成。
| 类型 | 表达式 | 示例 | 含义 |
|---|---|---|---|
| (1) | 单个基本项 | 中国 | 查询到包含“中国”的自然段 |
| (2) | 基本项1 Operator1 基本项2 Operator1 … | 残疾儿童 职业教育和培训 | 查询到同时包含“残疾儿童”和“职业教育和培训”的自然段 注意:在实际表达式中,若Operator1是空格,则仅限于1个西文半角空格;若Operator1是“|”,则前后不能有空格。 |
| (3) | (基本项1 Operator1 基本项2 Operator1 …) | (把|被) | 查询到同时包含“把”和“被”的自然段 注意:在实际表达式中,简单项前后可以用西文括号 ( 和 ) 括起来,以使表达式结构更醒目。这一类型的语义和上一类型相同。 |
复杂项可以由以下三种形式的序列组成。
| 类型 | 表达式 | 示例 |
|---|---|---|
| (1) | 简单项 | 把|被 |
| (2) | 简单项1 Operator2 Number 简单项2 | 能力#3大 |
| (3) | 简单项1 Operator2 Number 简单项2 Operator2 Number 简单项3 … | 被+1把$6给 |
注意:
复杂项类型(3)中,复杂项可以是:
| 复合方式 | 示例 | 含义 |
|---|---|---|
| 多个 $ 连用 | 被$10把$3给$2了 | “被、把、给、了”四个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“被”在“把”之前出现,二者之间间隔小于10个字符。同时,“把”在“给”之前出现,二者之间间隔小于3个字符。同时,“给”在“了”之前出现,二者之间间隔小于2个字符。 |
| 多个 + 连用 | 你+3他+2了 | 表示“你、他、了”三个关键字在一个句子中共现,并且相互之间有间隔字符的要求,“你”在“他”之前出现,二者之间间隔恰好3个字符。同时,“他”在“了”之前出现,二者之间间隔恰好2个字符。 |
| $ 与 + 的组合搜索 | 我$10你+3他$2了 | 表示“我、你、他、了”四个关键字在一个句子中共现,并且“我”在“你”之前,二者间隔小于等于10个字符。同时,“你”在“他”之前,二者间隔恰好等于3个字符。同时,“他”在“了”之前,二者间隔小于等于2个字符。 |
但是,Operator2中,只有 $ 和 + 这两个操作符支持多项连用,其余操作符不支持多项连用,也不支持跟 $ 和 + 这两个操作符连用。这种情况下,可以先用 $ 和/或 + 构成的复杂项查询式查询,然后再用“在结果中查询”的方式,通过操作符 - 和/或 ~ 来排除一些例句,逐步检索到需要的用例(可参考查询举例中第46~49例)。例如:查询“谅+1!也-1不”会出现错误,无法查询。正确的操作是,先查询“谅+1!也”,获得“谅”在“也”之前,且正好相隔1个字符的语料,再在结果中查询“也-1不”,排除“不”在“也”之后,且正好相隔1个字符的语料。
复杂项类型(2)(3)中可以插入Operator3以改变页面显示和高亮的方式。在查询结果显示页面,默认以第一个简单项居中定位并高亮显示。操作符 ! 只能出现1个,需要插入任何一个简单项的开头,显示结果将以该简单项居中定位并高亮显示。例如,“把$2!被”的显示结果中,“被”居中定位并高亮显示;“!把$2被”与“把$2被”的功能相同,“把”居中定位并高亮显示。
操作符 $ 支持指定查询字符间隔的范围(如[6-10]表示间隔6到10个字符),这种查询方式也可以跟“+”操作符组合。例如:“我$[6-10]你+3他$2了”,表示:“我” 和“你”间隔字符在6到10个字符之间,“你”和“他”间隔等于3个字符,“他”和“了”间隔小于等于2个字符。
用户可以在复杂项后指定过滤项。通过过滤项,用户可以缩小查询语料的范围。表达式序列为“复杂项 过滤项1 [过滤项2 …]”(示例见下)。
过滤项包含以下类型:
| 类型 | 名称 | 格式 | 含义 | 适用范围 |
|---|---|---|---|---|
| (1) | 路径 | path:简单项 | 用于指定查询语料所在的文件夹或者文件名 | 古代汉语语料库 现代汉语语料库 |
| (2) | 年代 | time:简单项 | 用于指定查询语料所在的朝代或年代 | 古代汉语语料库 现代汉语语料库 |
| (3) | 重叠格式 | pattern:简单项 | 用于查询汉语中的各种重叠格式,重叠格式指“AA”“ABB”“AABB”“AB不AB”“A一A”等等含有重复字符的形式。 | 全部 |
| (4) | 作者 | author:简单项 | 用于指定查询语料的作者信息 | 汉英双语语料库 |
| (5) | 译者 | translator:简单项 | 用于指定查询语料的译者信息 | 汉英双语语料库 |
| (6) | 文本类型 | type:简单项 | 用于指定查询语料的文本类型 | 汉英双语语料库 |
| (7) | 中文句子 | ch:简单项 | 用于指定查询语料包含的中文句子 | 汉英双语语料库 |
| (8) | 英文句子 | en:简单项 | 用于指定查询语料包含的英文句子 | 汉英双语语料库 |
| (9) | 中文篇名 | name:简单项 | 用于指定查询语料的中文篇名 | 汉英双语语料库 |
| (10) | 英文篇名 | enname:简单项 | 用于指定查询语料的英文篇名 | 汉英双语语料库 |
注意:
子句可以是以下两类表达式:
(1) 复杂项
(2) 过滤项
查询表达式可以是以下形式的序列:
(1) 子句
(2) 子句1 子句2 …
注意:
子句和子句之间必须以西文空格字符隔开,表示逻辑“AND”关系。
高级查询页面的查询功能与普通查询页面的查询功能基本相同。
高级查询页面设置了一些输入特定查询条件的文本框,方便用户指定查询条件。当前高级查询页面的设置如下图所示。
当前高级查询支持的查询功能包括:
| 支持的功能 | 操作方式 | 含义 | 对应的普通查询表达式 |
|---|---|---|---|
| 两个简单项拼接的复杂项查询 | 输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距小于等于” | 两个“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数小于或等于Number。 | A$NumberB |
| 输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“无序相距小于等于” | 两个“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number。 | A#NumberB | |
| 输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距刚好等于” | 两个“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数刚好等于Number。 | A+NumberB | |
| 输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距……不共现” | 第一个“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,第二个的“简单项”不出现。 | A-NumberB | |
| 按路径查询 | 输入一个合法的路径XXX | 筛选路径中包含XXX的语料 | path:XXX |
| 按重叠格式查询 | 在下拉框中选择一个重叠格式XXX | 筛选包含格式XXX的语料 | pattern:XXX |
| 按时间查询 | 输入一个合法的时间XXX | 筛选时间为XXX的语料 | time:XXX |
注意:
文件上传要求:用户可上传 txt格式文本文件 作为查询文件,文件内可包含多个普通查询表达式,格式规范为:每一行对应一个合法有效的查询表达式(一行仅写一个)。
查询数量限制:单个批处理查询文件中,最多可包含100个查询表达式,即文件最多允许100个文本行。
结果返回形式:查询完成后,将返回一个网页(html文件),网页内会按照原查询文件的顺序,逐一列出所有查询表达式;点击每一行对应的下载按钮,即可下载该表达式对应的普通查询结果(txt文本文件)。
单个查询表达式对应的检索结果文件中,包含的检索结果数量最多不超过100例。
模式查询用于检索特定词语组合模式。
模式查询表达式由常项和变项两部分组成,常项是普通汉字字符,变项由英文字母表示。大写字母代表任意字符,小写字母代表词性标记。
| 查询表达式 | 常项 | 变项 | 匹配目标 |
|---|---|---|---|
| 爱(X)不(X) | 爱,不 | X,X | 爱去不去☑,爱好不好☑,爱什么不什么☑ |
| 爱(v)不(v) | 爱,不 | v,v | 爱去不去☑,爱好不好☒ ,爱什么不什么☒ |
说明:
模式查询查询表达是中使用词性标记n、v等作为变项,比用X、Y等任意通配符作为变项,查询速度更快。
| 标记 | 词性说明 | 标记 | 词性说明 | 标记 | 词性说明 |
|---|---|---|---|---|---|
| a | 形容词 | b | 其他名词修饰语 | c | 连词 |
| d | 副词 | e | 叹词 | g | 语素 |
| h | 前缀 | i | 成语 | j | 简称略语 |
| k | 后缀 | m | 数词 | n | 普通名词 |
| nd | 方位名词 | nh | 人名 | ni | 机构名 |
| nl | 处所名词 | ns | 地名 | nt | 时间名词 |
| nz | 其他专有名词 | o | 拟声词 | p | 介词 |
| q | 量词 | r | 代词 | u | 助词 |
| v | 动词 | wp | 标点符号 | ws | 外来词/外文单词 |
| x | 非语素字 |
如果需要对匹配到的词语进行区分,可以使用数字下标(如n1、n2、v1、v2等),表示变项是两个不同的词语,如:
(v1)来(v2)去 可匹配实例:思 来 想 去,翻 来 覆 去。
有(n1)有(n2) 可匹配实例:有 山 有 水,有 头 有 脸。
大写字母X、Y等作为通配符,表示的是任意词串,并不限制词语的个数和类别,如:
爱(X)不(X) 可能匹配实例“爱 学 进去 不 学 进去”。X不限制词语个数和类别。
爱(X)不(X) 也可能匹配实例“少年,认真的恋个爱 好 不 好”。
爱(X)不(X) 还可能匹配实例“恩爱 得 不 得了”“他的全部的爱 是 不 是在羞辱中消失了”。这里的“爱得不得”“爱是不是”仅是形式上的匹配,不符合一般的“爱X不X”的语义模式。
由于分词和词性标注是机器全自动处理,处理结果可能存在错误,导致检索结果不符合语言学要求,用户仍需根据自身研究目的对返回结果进一步甄别。
用户可以指定变项的字符总长度,即整个词串的字符个数,具体格式及示例如下:
| 表达式格式 | 含义说明 | 示例 |
|---|---|---|
| (变量,=num) | 变量字符长度等于指定数值num | 爱(X,=2)不(X) → X 的字符总长度为 2 |
| (变量,<num) | 变量字符长度小于指定数值num | 爱(X,<3)不(X) → X 的字符总长度小于 3,即为 1 或 2 |
| (变量,num1-num2) | 变量字符长度≥num1并且≤num2 | 爱(X,1-3)不(X) → X 的字符总长度为 1、2 或 3 |
注意:
附:模式查询表达式的BNF范式:
Query ::= <TERM><LPAREN><PlaceHolder><RPAREN> [(<LPAREN><PlaceHolder><RPAREN>) | <TERM>]*
PlaceHolder ::= <PLACEHOLDER><DISTANCE_START>
(
( [<DISTANCE_MORE>|<DISTANCE_LESS>| <DISTANCE_EQUAL>]<NUMBER>) |
(<NUMBER><SCOPE><NUMBER>)
)
<PLACEHOLDER> ::= [a-zA-Z]
<DISTANCE_MORE> ::= “>”
<DISTANCE_LESS> ::= “<”
<DISTANCE_EQUAL> ::= “=”
<SCOPE> ::= “-”
<NUMBER>::= [0-9]*
默认情况下,查询语料的范围是全部语料文件。用户可通过以下三种途径,缩小查询语料的范围:
方法(3)的具体操作方式如下:
注意:
默认情况下,查询语料的时间范围为全部语料文件对应的时间范围。 用户可通过以下两种途径,缩小查询语料的时间范围:
方法(2)的具体操作方式说明如下:
对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查询”功能,逐次逼近检索目标。(可参考下文十一 查询举例中的例46-49。)
“在结果中查询”的功能是指在上一次检索基础上,用户输入新的查询条件,然后点击“在结果中查询”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个子集。
比如:用户想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这一否定词。检索方式可以如下:
“普通查询”和“模式查询”的检索结果页面,都有“在结果中查询”按钮(功能)。
在输入查询条件的文本框中,输入查询表达式要遵循上文第一节规定的查询表达式的规范。
无论是在“普通查询”还是在“模式查询”状态下,“在结果中查询”都只允许“普通查询”表达式。换言之,不支持“在结果中查询”对应的检索框中输入“模式查询”表达式。
查询结果以原始语料文件的自然段落为单位进行显示,用户可以自定义显示长度(中心词的左右n个字符范围)。当指定长度超过段落长度时,以段落长度为限进行显示。 实际显示范围根据页面宽度进行裁剪,详见8.3 结果页面的显示长度和8.6 查询结果的扩展。
每个查询结果显示行中,存在一到多个“标记词”,和一个“中心词”。
标记词:与查询表达式匹配的字符串均被标出,以下划线进行标记;
中心词:以红色高亮的一处特殊“标记词”。每个查询结果显示行的文本以“中心词”位于页面水平中心位置对齐。
如果在查询表达式中没有用Operator2指定“中心词”,系统会自动把第一个检索关键词当作“中心词”。
即使用户指定了查询结果的显示长度,查询结果显示行的文本也会根据页面实际宽度进行裁剪,具体分为下面几种情况:
|
查询类型 |
指定长度 |
结果形式 |
显示长度 |
|
单语查询 |
最多显示字符数 左XX 右XX |
HTML网页 |
如果指定长度不超过页面宽度,按照指定长度显示; 否则,按照页宽的最大限度显示 |
|
下载(txt文件) |
按照指定长度 |
||
|
双语查询 |
最多显示字符数 左XX 右XX |
HTML网页 |
目标语言(查询输入的语言)按照指定长度显示;对照语言不进行压缩 |
|
下载(txt文件) |
对于有关键词的检索,如果原始语料文件的一个自然段落包含n个与查询表达式匹配的字符串,则该段落会被显示n次,每次分别以不同关键词作为“居中词”进行显示。
查询结果显示页面上方统计的条目数(找到XX条),是包含查询内容的段落总数。对于同一段落包含多个与查询表达式匹配的字符串的情况,以结果显示行左侧的二级编号标示:例如,“1.1”表示第一个匹配段落的第一条命中结果,“1.2”表示第一个匹配段落的第二条命中结果,二者对应的自然段落相同,但居中且高亮的“中心词”不同。
用户可以指定查询结果按照“中心词”左侧或右侧的字符串排序,排序方式为unicode编码顺序。 除在网页上显示的检索结果支持排序外,下载的结果文件也支持排序。
查询结果显示行左侧设有“上下文”按钮,点击后,可以扩展显示当前的完整段落,及其前一个和后一个段落的内容。
用户可以点击查询结果显示页面下方的“第一页”“上一页”“下一页”“最后一页”以及具体的页码按钮,定位到想查看的结果页面。
用户可以浏览的最大查询结果数为10万条,每页显示查询结果数为50条,因此,对于每一次查询,最后一页的最大页码值为2000。
用户如需要浏览更多查询结果,可通过分批查询方式,利用指定语料范围、语料年代、指定查询路径等方式过滤,减少每次查询的检索结果总数(少于10万条)。
用户可以点击查询结果显示页面上方的“下载”按钮,将结果以txt文件形式保存到本地。 可以指定下载条数,缺省为500条,最大为2万条。下载内容从当前所在页面的第一条记录开始,按照当前指定的排序方式进行排列。 txt文件内,每行是一条查询结果,行末在【 】内注明了该条目的路径、年代、作者等信息。
当指定下载条数较多时,文件可能会比较大,导致下载速度缓慢。请耐心等待,不要重复提交请求。 系统存在每日下载限制(如下表),超过限制则会禁止当前ip的当日下载请求。
| 限制项目 | 每日上限 |
|---|---|
| 下载次数 | 100次 |
| 字节数 | 20MB |
| 单次条数 | 2万条 |
双语查询中,中文和英文均支持前文所述的四种查询功能。
下表列举了英文查询的一些特性,9.2-9.5介绍了四种查询功能的注意事项。
| 特性 | 含义 |
|---|---|
| 距离 | 中文查询时,一个距离单位为“一个字”;英文查询时,一个距离单位为“一个英文字母”。除此之外,一个空格、一个英文标点、一个中文标点均算作“一个距离单位”。比如,查询“an+5apple”,查询结果会包含“a red apple”。 |
| 词组 | 英文词组两端用引号确定边界,比如“take care of”。 |
| 词形 | 检索一个单词时,该单词的不同词形变化形式也作为检索关键词看待。比如用户查 take 的时候,系统会将包含took、 taken、takes、taking的文档也作为查询结果返回。 |
| 大小写 | 不区分大小写。 |
| 高亮 | 有空格边界的词或字母才会高亮。比如,查询“A#2B”,“probability”词中的a和b不会高亮。中文查询时,“!”表示居中高亮,但英文查询不支持居中高亮。 |
(可参考上文“一 普通查询”)
双语查询中,过滤项仅适用于简单项查询表达式,比如,“ch:[这个|这些]” 和“en:[this|these]”;过滤项不适用复杂查询表达式,比如“ch:把$10被”和“en:(put)$10(up)”。
(关于过滤项的查询可以参考1.5 过滤项。)
双语查询支持复杂查询表达式,比如,“(把|被)$[2-4]给”和“(buy|eat)$5apple”。
双语查询支持“path”查询,鼠标悬浮在文本上几秒会显示文件名。
(可参考上文“二 高级查询”)
(可参考上文“三 批量查询”)
支持中文查询式和英文查询式同批查询。比如,第一行为“把$10被”,第二行为“put$10up”。
普通查询中正常显示的查询式,批量查询也会正常显示;普通查询不支持的查询式,批量查询也不支持。
(可参考上文“四 模式查询”)
汉语模式查询中支持的双语模式查询也支持,比如“爱(v)不(v)”。
英文不支持指定词性。比如“buy (n)”。
中介语查询结果包含“中介语”和“目标语”两部分:“中介语”是二语学习者在学习汉语过程中,所写作的内容,其中可能包含一些词句使用上的不自然和不恰当之处;“目标语”则是对“中介语”进行修改后,更加符合汉语使用习惯的内容版本。人类专家修改占比为16.83%,大模型(Deepseek)修改占比为83.17%。
在查询结果中可以观察到“中介语”的来源信息以及使用不当之处(以黄色高亮表示)的错误信息,在“目标语”相应位置可以观察到修改后的内容(以绿色高亮表示)。
注意:在中介语查询中,会根据中介语来匹配查询表达式,例如查询“今天”时,会查询到所有包含“今天”的中介语,但目标语中不一定包含“今天”。
(可参考上文“一 普通查询”)
查询时可选择二语学习者的母语和学习时长范围。
(可参考上文“二 高级查询”)
中介语的“高级查询”包含两种方式:
第一种:与其他高级查询类似,中介语的高级查询也可以通过直接在“高级查询”页面输入相关信息查询。
第二种:使用统计查询工具进行查询。
(可参考上文“三 批量查询”)
当中介语中包含该表达式时,会作为结果被检索到。返回的每一条的结果中同时包含中介语和目标语。
(可参考上文“四 模式查询”)
| 序号 | 查询式 | 含义 | 查询方式 |
|---|---|---|---|
| 1 | 计算机硬件 | 查出所有包含“计算机硬件”的句子。 | 普通查询 |
| 2 | 把 被 | 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“把”,“被”不会被高亮。 | 普通查询 |
| 3 | 残疾儿童 职业教育和培训 | 查出所有包含“残疾儿童”,同时也包含“职业教育和培训”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“残疾儿童”,“职业教育和培训”不会被高亮。 | 普通查询 |
| 4 | good luck | 查出所有同时包含字符串“good”和“luck”的句子。两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“good”,“luck”不会被高亮。 | 普通查询 |
| 5 | 把|被 | 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,该句子就作为查询结果输出。注意:- 号属于operator2,其后必须有数字,且不能有空格 | 普通查询 |
| 6 | 把-4不 | 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。 | 普通查询 |
| 7 | 给~4把 | 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。 | 普通查询 |
| 8 | 与其$10不如 | 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔10字以内。 | 普通查询 |
| 9 | 与其$[2-4]不如 | 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔2到4字。 | 普通查询 |
| 10 | 的$10的 | 查出同时含有“的”和“的”的句子,并且前一个“的”跟后一个“的”间隔10字以内。 | 普通查询 |
| 11 | put$[8-10]up | 查出同时含有“put”和“up”的句子,并且第一个关键词“put”跟第二个关键词“up”间隔8到10个字符。注意:双语语料库中的查询表达式,包括普通查询和模式查询,基本可以沿用现代汉语语料库的查询表达式的规范。 | 普通查询 |
| 12 | 被$4把$10给 | 查出同时含有“被”、“把”和“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔4字以内,第二个关键词“把”跟第三个关键词“给”间隔10字以内。 | 普通查询 |
| 13 | 能力#3大 | 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。 | 普通查询 |
| 14 | 吃+3亏 | 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。 | 普通查询 |
| 15 | 被+1把+6给 | 查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字。 | 普通查询 |
| 16 | 被+1把$6给 | 查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字以内。 | 普通查询 |
| 17 | 被$10!给 |
查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 注意:在模式查询中使用的括号“()”、感叹号“!”等符号,查询表达式中可以使用的特殊符号(均为半角西文格式),如果输入为中文全角符号“()”、”!”,将无法被正确检索。 |
普通查询 |
| 18 | (把|被)$10给 |
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。 |
普通查询 |
| 19 | (把|被)$10!给 |
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。 显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 |
普通查询 |
| 20 | (把|被)$[2-4]!给 |
查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔2-4个字。 或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔2-4个字。 显示查询结果时,以“给”为“中心词”,即“给”居中对齐。 |
普通查询 |
| 21 | 了$0(。|?|,|!) | 查出“了”与标点符号“。?,!”等紧邻出现的句子。这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。 | 普通查询 |
| 22 | 把$10(下去。|下去!|下去?) | 查出“把”跟“下去”在同句中共现,且相隔10个字符以内,“下去”后接句号、叹号或问号,即“下去”在句尾的句子。 | 普通查询 |
| 23 | 所以 path:老舍 |
在语料中查找含“所以”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“所以”的例句。注意:“所以”跟path之间需要有一个空格。 ※ 可检索的路径(path)请参考高级查询模式下“参考”栏中的“路径列表”。 |
普通查询 / 选择范围 |
| 24 | pattern:A来A去 path:老舍 | 在语料中查找含重叠形式“A来A去”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“A来A去”的例句。 | 普通查询 / 选择范围 |
| 25 | path:人民日报 path:2010 新年贺词 | 在语料中查找含“新年贺词”的句子,同时该语料文件的文件夹或文件名中含“人民日报”“2010”这两个关键词。这相当于在“2010年人民日报”这个范围内查询含“新年贺词”的例句。 | 普通查询 / 选择范围 |
| 26 | pattern:AABB path:老舍 time:1954 |
在语料中查找含重叠形式“AABB”的句子,同时该语料文件的文件夹或文件名中含“老舍”,语料时间是“1954”年。 ※ 可检索的形式(pattern)示例请参考高级查询模式下参考栏中的“模式列表”。 |
普通查询 / 选择范围 / 选择时间 |
| 27 | 虽然+4但是$[4-8]了 path:报刊 | 查询“虽然”“但是”“了”三个关键词共现的句子,要求“虽然”跟“但是”相隔4个字,“但是”跟“了”相隔4到8个字。语料范围限定在“报刊”语料中。 | 普通查询 / 选择范围 |
| 28 | path:孔子 path:宋 | 查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 | 普通查询 / 选择范围 |
| 29 | path:[孔子 宋] | 查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 | 普通查询 / 选择范围 |
| 30 | path:孔子|宋 | 查询语料范围为文件夹或文件名称中或者包含“孔子”,或者包含“宋”,即两个关键词有其一即符合查询条件。 | 普通查询 / 选择范围 |
| 31 | 有一种(X,=2)叫(Y,=2) | 在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都为两个汉字字符。(返回结果:有一种力量叫感动;有一种放弃叫成全;……) | 模式查询 |
| 32 | 有一种(X,<5)叫(Y,<5) | 在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都在5个字符以内。 | 模式查询 |
| 33 | 有一种+2叫 path:微博 | 在普通查询页面,查询“有一种X叫Y”这样的例子,X是两个字符,在“微博”文件夹范围内查找。 | 普通查询 |
| 34 | (X,1-4)的(X)(Y,1-4)的(Y,1-4) | 在模式查询页面,查询“死的死逃的逃”这样的例子,其中X和Y是两个不同的字符串,且X的长度在1-4个字符;Y的长度也是1-4个字符。 | 模式查询 |
| 35 | (v1)也(v1)不了,(v2)也(v2)不掉 |
在模式查询页面,查询“走也走不了,甩也甩不掉”这样的例子,其中两个变项都是动词v(不同形),第2个变项v后跟着逗号。v的长度没有限制。 ※ 模式查询中支持的词性主要包括动词(v)、名词(n)、形容词(a)、副词(d)、代词(r)。 |
模式查询 |
| 36 | (v)也得(v),不(v)也得(v) | 在模式查询页面,查询“走也得走,不走也得走”这样的例子,其中两个变项都是动词v(同形),第2个变项v后跟着逗号。v的长度没有限制。 | 模式查询 |
| 37 | 一个(n,<3)和(n,<3) | 在模式查询页面,查询“一个人和人”这样的例子,其中两个变项都是名词n(同形),n的长度小于3个字符。 | 模式查询 |
| 38 | 穿(n,2-3) | 在模式查询页面,查询“穿”后接名词n的例子,变项n的长度为2到3个字符。 | 模式查询 |
| 39 | 爱(v,=1)不(v) | 在模式查询页面,查询“爱X不X”这样的例子,其中X变项为动词v,且是单音节动词。(返回结果:爱借不借;爱理不理;爱管不管……) | 模式查询 |
| 40 | 爱(v,<3)不(v) | 在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长小于3,即为单音节动词或双音节动词; | 模式查询 |
| 41 | 爱(v,1-3)不(v) | 在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长在1到3之间,即可以是单音节、双音节、三音节动词; | 模式查询 |
| 42 | Internet enname:Intranet |
查询英语语料篇名含“Intranet”的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名 ※ 可检索的文件名(name(中), enname(英))请参考高级查询模式下“参考”栏中的“中文篇名列表”与“英文篇名列表”。 |
普通查询 / 双语查询 |
| 43 | Internet enname:Intranet enname:Groupware | 查询英语语料篇名含“Intranet”以及“Groupware”两个关键字的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名,可以多项并列使用,各项之间用空格分开。 | 普通查询 / 双语查询 |
| 44 | Internet enname:[Intranet|Groupware] | 查询英语语料篇名含“Intranet”或者“Groupware”两个关键字的文件中包含“Internet”的例句。 | 普通查询 / 双语查询 |
| 45 | ch:以太网 en:Ethernet | 查询中文句子中包含“以太网”以及英文句子中包含“Ethernet”的汉英双语对照例句。查询表达式中“ch”对应中文句子,“en”对应英文句子。 | 普通查询 / 双语查询 |
| 46 |
查询表达式1:宁可$10也 查询表达式2:也-4不 也-0要 |
查询“宁可”和“也”间隔10个字的句子,同时排除“也”后4个字范围内出现“不”,“也”后紧邻出现“要”的句子。 执行顺序:先在“普通查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。 |
普通查询 |
| 47 |
查询表达式1:一个(n1,<3)和(n2,<3) 查询表达式2:一个~0每 |
查询“一个n1和n2”(如“一个毯子和饭包”)这样的例句,同时排除“每一个国家和地区”这样的句子。后者用“一个~0每”这个查询表达式可以过滤掉。该查询表达式的含义是,关键词“一个”的左边不能紧邻出现关键词“每”。 执行顺序:先在“模式查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。 |
模式查询 |
| 48 |
查询表达式1:澡$4洗 查询表达式2:洗-5澡 查询表达式3:澡-0, 查询表达式4:澡-0、 |
查询表达式1:“澡”出现在“洗”的左侧(即句子中先说了“澡”,后面再说“洗”),目的是查找句子中“洗澡”这个词的离合用法。例如:他连澡都没洗,…… 查询表达式2:“洗”和“澡”之间间隔0到5个字。目的是把“洗……澡”这类离合用法,以及直接连用的“洗澡”非离合用法从查询表达式1的结果中剔除出去。 查询表达式3:把“澡”后紧挨着逗号“,”的例句,再从查询表达式2的检索结果中剔除出去。 查询表达式4:把“澡”后紧挨着顿号“、”的例句,再从查询表达式3的检索结果中剔除出去。 执行顺序:先在“普通查询”页面,按照查询表达式1进行查询; 然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮; 然后再在返回检索结果页面,输入查询表达式3,点击“在结果中查询”按钮; 然后再在返回检索结果页面,输入查询表达式4,点击“在结果中查询”按钮。 |
普通查询 |
| 49 | 查询表达式5:澡$4洗 洗-5澡 澡-0, 澡-0、 | 跟上面查询表达式1——4的查询效果相同。查询表达式5是在检索框中输入一个复杂的查询表达式,一次实现上述检索意图。 | 普通查询 |
| 50 | 错误示例: 澡$4洗-0,-0、 | 这是错误示例。错误理由是:在链式复杂项中,只有“+”和“$”可以连用,而“-”不可以连用。正确示例请参考第48行、49行。 | 普通查询 |
--- 正文完 ---
联系人:詹卫东(zwd@pku.edu.cn)
如遇技术问题,请发邮件至:zmzhou25@stu.pku.edu.cn