CCL语料库检索系统使用说明

日期:2026-04-01

目录


一 普通查询

返回目录

这一小节介绍查询表达式的形式规范及不同类型查询表达式的功能。

查询表达式由操作符、基本项、简单项、复杂项、过滤项、子句等构成。下面依次介绍。

1.1 操作符

返回目录

查询表达式中可以使用的特殊符号共13个。如下表所示:

序号 1 2 3 4 5 6 7 8 9 10 11 12 13
符号 空格 | $ # + - ~ ! : [ ] ( )

这些符号均为半角西文字符,按照用法和功能,可分为5组。下表中用Operator1,Operator2,……来表示这5组操作符。

表中A、B、C等表示任意字符串(不含操作符);Number表示0和正整数;m、n表示0和正整数,m≤nKEY表示系统预留关键字。


序号 符号 用法/语法形式 查询功能说明
Operator1 空格 A B
A B C…
Operator1是二元操作符,用于构成“简单项”(参见1.3)。
| A|B
A|B|C|…
Operator2 $ A$NumberB Operator2是二元操作符,它必须跟整数连用,用于构成“复杂项”(参见1.4)。
# A#NumberB
+ A+NumberB
- A-NumberB
~ A~NumberB
Operator3 ! !A Operator3是一元操作符,用于标记其后的基本项在查询结果显示页面居中高亮。
Operator4 : KEY:A
KEY:[A B]
KEY:[A|B]
Operator4是二元操作符,用于构成“过滤项”(参见1.5)。
Operator5 [ - ] A$[m-n]B 用于 $ 操作符之后标记数值范围。
[ ] KEY:[A B]
KEY:[A|B]
用于在 : 操作符之后标记简单项。
( ) (普通查询中)(A)
(模式查询中)(X)
可在模式查询中标记变项,或在普通查询中标记简单项。

各操作符的含义如下:

序号 符号 说明
1 空格 相当于逻辑中的“并”关系。例如,查询表达式“把 被”会查询到同时包含“把”和“被”的自然段,两个关键词都需要在一个自然段内出现,无次序限制,无距离限制。输出中被高亮的词是“把”,“被”不会被高亮。
2 | 相当于逻辑中的“或”关系。例如,查询表达式“把|被”会查询到所有包含“把”或“被”的自然段,两个关键字只需有一个在自然段中出现,该句子就作为查询结果输出。输出中被高亮的词是“把”或者“被”。
3 $ 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数小于或等于Number。
4 # 表示它两边的“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number。
5 + 表示它两边的“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数刚好等于Number。
6 - 表示它左边的“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,-号右边的“简单项”不出现。
7 ~ 表示它左边的“简单项”出现于句子中,并且,在左边相隔Number个字的范围内,~号右边的“简单项”不出现。
8 ! 表示它后面的“简单项”是本次查询的主关键字符串,显示查询结果时以该“简单项”作为中心来进行定位。
9 : 用于path,author,name,type,pattern 等关键字后面,分隔关键字和它们的取值。
10 [ - ] 用于 $ 操作符之后,指定字符间隔数值范围。
11 [    ] 用于 : 操作符之后,标记过滤项取值。
12 ( ) 用于模式查询表达式中,标记变项;
用于普通查询表达式中,标记简单项。

注意:

  1. 上述操作符均不能作为基本项在语料库中进行检索。
  2. Operator5中的短横线 - 跟 Operator2中的 - 是同一个字符,但二者用法(环境)不同,作用不同。

1.2 基本项

返回目录

指连续字符串,字符串中不包含1.1所定义的查询表达式需要用到的特殊符号(包括空格)。

1.3 简单项

返回目录

简单项可以由以下三种形式的序列组成。

类型 表达式 示例 含义
(1) 单个基本项 中国 查询到包含“中国”的自然段
(2) 基本项1 Operator1 基本项2 Operator1 … 残疾儿童 职业教育和培训 查询到同时包含“残疾儿童”和“职业教育和培训”的自然段
注意:在实际表达式中,若Operator1是空格,则仅限于1个西文半角空格;若Operator1是“|”,则前后不能有空格。
(3) (基本项1 Operator1 基本项2 Operator1 …) (把|被) 查询到同时包含“把”和“被”的自然段
注意:在实际表达式中,简单项前后可以用西文括号 ( 和 ) 括起来,以使表达式结构更醒目。这一类型的语义和上一类型相同。

1.4 复杂项

返回目录

复杂项可以由以下三种形式的序列组成。

类型 表达式 示例
(1) 简单项 把|被
(2) 简单项1 Operator2 Number 简单项2 能力#3大
(3) 简单项1 Operator2 Number 简单项2 Operator2 Number 简单项3 … 被+1把$6给

注意:

1.5 过滤项

返回目录

用户可以在复杂项后指定过滤项。通过过滤项,用户可以缩小查询语料的范围。表达式序列为“复杂项 过滤项1 [过滤项2 …]”(示例见下)。

过滤项包含以下类型:

类型 名称 格式 含义 适用范围
(1) 路径 path:简单项 用于指定查询语料所在的文件夹或者文件名 古代汉语语料库
现代汉语语料库
(2) 年代 time:简单项 用于指定查询语料所在的朝代或年代 古代汉语语料库
现代汉语语料库
(3) 重叠格式 pattern:简单项 用于查询汉语中的各种重叠格式,重叠格式指“AA”“ABB”“AABB”“AB不AB”“A一A”等等含有重复字符的形式。 全部
(4) 作者 author:简单项 用于指定查询语料的作者信息 汉英双语语料库
(5) 译者 translator:简单项 用于指定查询语料的译者信息 汉英双语语料库
(6) 文本类型 type:简单项 用于指定查询语料的文本类型 汉英双语语料库
(7) 中文句子 ch:简单项 用于指定查询语料包含的中文句子 汉英双语语料库
(8) 英文句子 en:简单项 用于指定查询语料包含的英文句子 汉英双语语料库
(9) 中文篇名 name:简单项 用于指定查询语料的中文篇名 汉英双语语料库
(10) 英文篇名 enname:简单项 用于指定查询语料的英文篇名 汉英双语语料库

注意:

1.6 子句

返回目录

子句可以是以下两类表达式:

(1)  复杂项
(2)  过滤项

1.7 查询表达式

返回目录

查询表达式可以是以下形式的序列:

(1) 子句
(2) 子句1  子句2  …

注意:

子句和子句之间必须以西文空格字符隔开,表示逻辑“AND”关系。

二 高级查询

返回目录

高级查询页面的查询功能与普通查询页面的查询功能基本相同。

高级查询页面设置了一些输入特定查询条件的文本框,方便用户指定查询条件。当前高级查询页面的设置如下图所示。

advance_query_page

当前高级查询支持的查询功能包括:

支持的功能 操作方式 含义 对应的普通查询表达式
两个简单项拼接的复杂项查询 输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距小于等于” 两个“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数小于或等于Number。 A$NumberB
输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“无序相距小于等于” 两个“简单项”出现于同一句中,不考虑前后次序。两个“简单项”之间相隔字数小于或等于Number。 A#NumberB
输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距刚好等于” 两个“简单项”出现于同一句中,按照左边在前、右边在后的次序共现。两个“简单项”之间相隔字数刚好等于Number。 A+NumberB
输入第一个词(简单项A)、第二个词(简单项B)和数字Number,选择“有序相距……不共现” 第一个“简单项”出现于句子中,并且,在右边相隔Number个字的范围内,第二个的“简单项”不出现。 A-NumberB
按路径查询 输入一个合法的路径XXX 筛选路径中包含XXX的语料 path:XXX
按重叠格式查询 在下拉框中选择一个重叠格式XXX 筛选包含格式XXX的语料 pattern:XXX
按时间查询 输入一个合法的时间XXX 筛选时间为XXX的语料 time:XXX

注意:

三 批量查询

返回目录

文件上传要求:用户可上传 txt格式文本文件 作为查询文件,文件内可包含多个普通查询表达式,格式规范为:每一行对应一个合法有效的查询表达式(一行仅写一个)。

查询数量限制:单个批处理查询文件中,最多可包含100个查询表达式,即文件最多允许100个文本行

结果返回形式:查询完成后,将返回一个网页(html文件),网页内会按照原查询文件的顺序,逐一列出所有查询表达式;点击每一行对应的下载按钮,即可下载该表达式对应的普通查询结果(txt文本文件)。

单个查询表达式对应的检索结果文件中,包含的检索结果数量最多不超过100例

四 模式查询

返回目录

模式查询用于检索特定词语组合模式。

模式查询表达式由常项和变项两部分组成,常项是普通汉字字符,变项由英文字母表示。大写字母代表任意字符,小写字母代表词性标记。

查询表达式常项变项匹配目标
爱(X)不(X)爱,不X,X爱去不去☑,爱好不好☑,爱什么不什么☑
爱(v)不(v)爱,不v,v爱去不去☑,爱好不好☒ ,爱什么不什么☒

说明:

4.1 指定变项词性

返回目录

模式查询查询表达是中使用词性标记n、v等作为变项,比用X、Y等任意通配符作为变项,查询速度更快。


词性标记集如下表所示:

标记 词性说明 标记 词性说明 标记 词性说明
a形容词b其他名词修饰语c连词
d副词e叹词g语素
h前缀i成语j简称略语
k后缀m数词n普通名词
nd方位名词nh人名ni机构名
nl处所名词ns地名nt时间名词
nz其他专有名词o拟声词p介词
q量词r代词u助词
v动词wp标点符号ws外来词/外文单词
x非语素字

由于分词和词性标注是机器全自动处理,处理结果可能存在错误,导致检索结果不符合语言学要求,用户仍需根据自身研究目的对返回结果进一步甄别。

4.2 指定变项长度

返回目录

用户可以指定变项的字符总长度,即整个词串的字符个数,具体格式及示例如下:

表达式格式 含义说明 示例
(变量,=num) 变量字符长度等于指定数值num 爱(X,=2)不(X) → X 的字符总长度为 2
(变量,<num) 变量字符长度小于指定数值num 爱(X,<3)不(X) → X 的字符总长度小于 3,即为 1 或 2
(变量,num1-num2) 变量字符长度≥num1并且≤num2 爱(X,1-3)不(X) → X 的字符总长度为 1、2 或 3

注意:

  1. 不允许对模式中指向相同词语的变项的长度进行多重定义,如“有(v,<8)没(v,>7)”为不合法的查询表达式。因为其中两个v代表相同词语,无法指定不同的长度。
  2. 如果变项长度未指定,则系统默认的最大长度为10。即“爱(X)不(X)”等价于“爱(X,1-10)不(X)”。

附:模式查询表达式的BNF范式:

Query ::= <TERM><LPAREN><PlaceHolder><RPAREN> [(<LPAREN><PlaceHolder><RPAREN>) | <TERM>]*
PlaceHolder ::= <PLACEHOLDER><DISTANCE_START>
(
( [<DISTANCE_MORE>|<DISTANCE_LESS>| <DISTANCE_EQUAL>]<NUMBER>) |
(<NUMBER><SCOPE><NUMBER>)
)
<PLACEHOLDER> ::= [a-zA-Z]
<DISTANCE_MORE> ::= “>”
<DISTANCE_LESS> ::= “<”
<DISTANCE_EQUAL> ::= “=”
<SCOPE> ::= “-”
<NUMBER>::= [0-9]*

五 选择范围

返回目录

默认情况下,查询语料的范围是全部语料文件。用户可通过以下三种途径,缩小查询语料的范围:

  1. 采用 “path:xxx” 格式,指定在特定的文件夹(或文件名)中进行查询;(参考1.5 过滤项关于path的用法说明,这是最常用、最主要的缩小语料范围的方法
  2. 如果查询的是“现代汉语”或者“古代汉语” ,可以在查询页面点击“现代汉语/古代汉语”旁边的三角形在下拉列表中选择语料范围。
  3. 用鼠标点击“选择范围”按钮,在弹出的语料库文件夹目录树中,选取特定的若干文件夹或文件,指定查询范围。

方法(3)的具体操作方式如下:

注意:

六 选择时间

返回目录

默认情况下,查询语料的时间范围为全部语料文件对应的时间范围。 用户可通过以下两种途径,缩小查询语料的时间范围:

  1. 采用 “time:xxx”方式,指定在特定年份或年代的语料中进行查询;(参考1.5过滤项关于time的用法说明。这是最常用、最主要的缩小语料时间范围的方法
  2. 用鼠标点击“选择时间”按钮,在弹出的下拉菜单选项框中,选择开始时间和结束时间,指定查询的时间范围。

方法(2)的具体操作方式说明如下:

七 在结果中查询

返回目录

对于复杂的查询要求,可以尝试通过多次查询完成,即利用“在结果中查询”功能,逐次逼近检索目标。(可参考下文十一 查询举例中的例46-49。

“在结果中查询”的功能是指在上一次检索基础上,用户输入新的查询条件,然后点击“在结果中查询”按钮,系统会将此次用户输入的查找条件跟上一次的查找条件(LastQuery)合并(AND运算),执行一次查询。查询结果是上一次查询结果的一个子集。

比如:用户想查找“宁可……也”的例句,同时不希望“也”后面出现“不”这一否定词。检索方式可以如下:

  1. 先输入查询表达式“宁可$10也”,返回的结果是包含“宁可”和“也”,且二者相隔10字以内的句子。
  2. 在检索结果显示页面,再输入查询表达式“也-4不”,点击“在结果中查询”按钮。这样返回的检索结果就把“也”后面4个字范围内有“不”的句子去除掉了。

“普通查询”和“模式查询”的检索结果页面,都有“在结果中查询”按钮(功能)。
在输入查询条件的文本框中,输入查询表达式要遵循上文第一节规定的查询表达式的规范。
无论是在“普通查询”还是在“模式查询”状态下,“在结果中查询”都只允许“普通查询”表达式。换言之,不支持“在结果中查询”对应的检索框中输入“模式查询”表达式。

八 查询结果的显示与下载

返回目录

8.1 查询结果的显示单位

返回目录

查询结果以原始语料文件的自然段落为单位进行显示,用户可以自定义显示长度(中心词的左右n个字符范围)。当指定长度超过段落长度时,以段落长度为限进行显示。 实际显示范围根据页面宽度进行裁剪,详见8.3 结果页面的显示长度8.6 查询结果的扩展

8.2 查询结果的“标记”和“居中”

返回目录

每个查询结果显示行中,存在一到多个“标记词”,和一个“中心词”。

标记词:与查询表达式匹配的字符串均被标出,以下划线进行标记;
中心词:以红色高亮的一处特殊“标记词”。每个查询结果显示行的文本以“中心词”位于页面水平中心位置对齐。

如果在查询表达式中没有用Operator2指定“中心词”,系统会自动把第一个检索关键词当作“中心词”。  

8.3 结果页面的显示长度

返回目录

即使用户指定了查询结果的显示长度,查询结果显示行的文本也会根据页面实际宽度进行裁剪,具体分为下面几种情况:

查询类型

指定长度

结果形式

显示长度

单语查询

最多显示字符数

左XX 右XX

HTML网页

如果指定长度不超过页面宽度,按照指定长度显示;

否则,按照页宽的最大限度显示

下载(txt文件)

按照指定长度

双语查询

最多显示字符数

左XX 右XX

HTML网页

目标语言(查询输入的语言)按照指定长度显示;对照语言不进行压缩

下载(txt文件)

8.4 结果页面中关键词一例一行

返回目录

对于有关键词的检索,如果原始语料文件的一个自然段落包含n个与查询表达式匹配的字符串,则该段落会被显示n次,每次分别以不同关键词作为“居中词”进行显示。

查询结果显示页面上方统计的条目数(找到XX条),是包含查询内容的段落总数。对于同一段落包含多个与查询表达式匹配的字符串的情况,以结果显示行左侧的二级编号标示:例如,“1.1”表示第一个匹配段落的第一条命中结果,“1.2”表示第一个匹配段落的第二条命中结果,二者对应的自然段落相同,但居中且高亮的“中心词”不同。

8.5 查询结果的排序

返回目录

用户可以指定查询结果按照“中心词”左侧或右侧的字符串排序,排序方式为unicode编码顺序。 除在网页上显示的检索结果支持排序外,下载的结果文件也支持排序。

8.6 查询结果的扩展

返回目录

查询结果显示行左侧设有“上下文”按钮,点击后,可以扩展显示当前的完整段落,及其前一个和后一个段落的内容。

8.7 查询结果的翻页

返回目录

用户可以点击查询结果显示页面下方的“第一页”“上一页”“下一页”“最后一页”以及具体的页码按钮,定位到想查看的结果页面。

用户可以浏览的最大查询结果数为10万条,每页显示查询结果数为50条,因此,对于每一次查询,最后一页的最大页码值为2000。

用户如需要浏览更多查询结果,可通过分批查询方式,利用指定语料范围、语料年代、指定查询路径等方式过滤,减少每次查询的检索结果总数(少于10万条)。

8.8 查询结果的下载

返回目录

用户可以点击查询结果显示页面上方的“下载”按钮,将结果以txt文件形式保存到本地。 可以指定下载条数,缺省为500条,最大为2万条。下载内容从当前所在页面的第一条记录开始,按照当前指定的排序方式进行排列。 txt文件内,每行是一条查询结果,行末在【 】内注明了该条目的路径、年代、作者等信息。

当指定下载条数较多时,文件可能会比较大,导致下载速度缓慢。请耐心等待,不要重复提交请求。 系统存在每日下载限制(如下表),超过限制则会禁止当前ip的当日下载请求。

限制项目 每日上限
下载次数 100次
字节数 20MB
单次条数 2万条

九 双语查询

返回目录

9.1 英文查询

返回目录

双语查询中,中文和英文均支持前文所述的四种查询功能。
下表列举了英文查询的一些特性,9.2-9.5介绍了四种查询功能的注意事项。

特性 含义
距离 中文查询时,一个距离单位为“一个字”;英文查询时,一个距离单位为“一个英文字母”。除此之外,一个空格、一个英文标点、一个中文标点均算作“一个距离单位”。比如,查询“an+5apple”,查询结果会包含“a red apple”。
词组 英文词组两端用引号确定边界,比如“take care of”。
词形 检索一个单词时,该单词的不同词形变化形式也作为检索关键词看待。比如用户查 take 的时候,系统会将包含took、 taken、takes、taking的文档也作为查询结果返回。
大小写 不区分大小写。
高亮 有空格边界的词或字母才会高亮。比如,查询“A#2B”,“probability”词中的a和b不会高亮。中文查询时,“!”表示居中高亮,但英文查询不支持居中高亮。

9.2 双语普通查询

(可参考上文“一 普通查询”)

返回目录

9.3 双语高级查询

(可参考上文“二 高级查询”)

返回目录

9.4 双语批量查询

(可参考上文“三 批量查询”)

返回目录

9.5 双语模式查询

(可参考上文“四 模式查询”)

返回目录

十 中介语查询

返回目录

  • 中介语查询结果包含“中介语”和“目标语”两部分:“中介语”是二语学习者在学习汉语过程中,所写作的内容,其中可能包含一些词句使用上的不自然和不恰当之处;“目标语”则是对“中介语”进行修改后,更加符合汉语使用习惯的内容版本。人类专家修改占比为16.83%,大模型(Deepseek)修改占比为83.17%。

  • 在查询结果中可以观察到“中介语”的来源信息以及使用不当之处(以黄色高亮表示)的错误信息,在“目标语”相应位置可以观察到修改后的内容(以绿色高亮表示)。

  • 注意:在中介语查询中,会根据中介语来匹配查询表达式,例如查询“今天”时,会查询到所有包含“今天”的中介语,但目标语中不一定包含“今天”。

  • 10.1 中介语普通查询

    (可参考上文“一 普通查询”)

    返回目录

    10.2 中介语高级查询

    (可参考上文“二 高级查询”)

    返回目录

    中介语的“高级查询”包含两种方式:

    第一种:与其他高级查询类似,中介语的高级查询也可以通过直接在“高级查询”页面输入相关信息查询。

    第二种:使用统计查询工具进行查询。

    10.3 中介语批量查询

    (可参考上文“三 批量查询”)

    返回目录

    10.4 中介语模式查询

    (可参考上文“四 模式查询”)

    返回目录

    十一 查询举例

    返回目录

    序号 查询式 含义 查询方式
    1 计算机硬件 查出所有包含“计算机硬件”的句子。 普通查询
    2 把  被 查出所有包含“把”,同时也包含“被”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“把”,“被”不会被高亮。 普通查询
    3 残疾儿童  职业教育和培训 查出所有包含“残疾儿童”,同时也包含“职业教育和培训”的句子,即两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“残疾儿童”,“职业教育和培训”不会被高亮。 普通查询
    4 good  luck 查出所有同时包含字符串“good”和“luck”的句子。两个关键字之间无次序限制,无距离限制,只需要在一个自然段内。注意:查询结果只高亮“good”,“luck”不会被高亮。 普通查询
    5 把|被 查出含有“把”或“被”的句子,两个关键字只需有一个在句中出现,该句子就作为查询结果输出。注意:- 号属于operator2,其后必须有数字,且不能有空格 普通查询
    6 把-4不 查出含有“把”,但在“把”右边4个字范围内不含“不”的句子。 普通查询
    7 给~4把 查出含有“给”,但在“给”左边4个字范围内不含“把”的句子。 普通查询
    8 与其$10不如 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔10字以内。 普通查询
    9 与其$[2-4]不如 查出同时含有“与其”和“不如”的句子,并且“与其”在先,“不如”在后出现,中间间隔2到4字。 普通查询
    10 的$10的 查出同时含有“的”和“的”的句子,并且前一个“的”跟后一个“的”间隔10字以内。 普通查询
    11 put$[8-10]up 查出同时含有“put”和“up”的句子,并且第一个关键词“put”跟第二个关键词“up”间隔8到10个字符。注意:双语语料库中的查询表达式,包括普通查询和模式查询,基本可以沿用现代汉语语料库的查询表达式的规范。 普通查询
    12 被$4把$10给 查出同时含有“被”、“把”和“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔4字以内,第二个关键词“把”跟第三个关键词“给”间隔10字以内。 普通查询
    13 能力#3大 查出同时含有“能力”和“大”的句子,且“能力”和“大”之间的间隔在3个字之内,二者的先后次序不受限制。 普通查询
    14 吃+3亏 查出同时含有“吃”和“亏”的句子,并且“吃”在先,“亏”在后出现,二者之间刚好间隔3个字。 普通查询
    15 被+1把+6给 查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字。 普通查询
    16 被+1把$6给 查出同时含有“被”“把”“给”的句子,并且第一个关键词“被”跟第二个关键词“把”间隔1个字,第二个关键词“把”跟第三个关键词“给”间隔6个字以内。 普通查询
    17 被$10!给 查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
    注意:在模式查询中使用的括号“()”、感叹号“!”等符号,查询表达式中可以使用的特殊符号(均为半角西文格式),如果输入为中文全角符号“()”、”!”,将无法被正确检索。
    普通查询
    18 (把|被)$10给 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
    或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
    普通查询
    19 (把|被)$10!给 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔10个字以内。
    或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔10个字以内。
    显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
    普通查询
    20 (把|被)$[2-4]!给 查出同时含有“把”和“给”的句子,并且“把”在先,“给”在后出现,二者之间间隔2-4个字。
    或者,查出同时含有“被”和“给”的句子,并且“被”在先,“给”在后出现,二者之间间隔2-4个字。
    显示查询结果时,以“给”为“中心词”,即“给”居中对齐。
    普通查询
    21 了$0(。|?|,|!) 查出“了”与标点符号“。?,!”等紧邻出现的句子。这实际上就部分地达到了查询“句尾了”(汉语学界一般所说的“了2”)的目的。 普通查询
    22 把$10(下去。|下去!|下去?) 查出“把”跟“下去”在同句中共现,且相隔10个字符以内,“下去”后接句号、叹号或问号,即“下去”在句尾的句子。 普通查询
    23 所以 path:老舍 在语料中查找含“所以”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“所以”的例句。注意:“所以”跟path之间需要有一个空格。
    ※ 可检索的路径(path)请参考高级查询模式下“参考”栏中的“路径列表”。
    普通查询 / 选择范围
    24 pattern:A来A去 path:老舍 在语料中查找含重叠形式“A来A去”的句子,同时该语料文件的文件夹或文件名中要含“老舍”这个词语。这相当于查询老舍作品中使用“A来A去”的例句。 普通查询 / 选择范围
    25 path:人民日报 path:2010 新年贺词 在语料中查找含“新年贺词”的句子,同时该语料文件的文件夹或文件名中含“人民日报”“2010”这两个关键词。这相当于在“2010年人民日报”这个范围内查询含“新年贺词”的例句。 普通查询 / 选择范围
    26 pattern:AABB path:老舍 time:1954 在语料中查找含重叠形式“AABB”的句子,同时该语料文件的文件夹或文件名中含“老舍”,语料时间是“1954”年。
    ※ 可检索的形式(pattern)示例请参考高级查询模式下参考栏中的“模式列表”。
    普通查询 / 选择范围 / 选择时间
    27 虽然+4但是$[4-8]了 path:报刊 查询“虽然”“但是”“了”三个关键词共现的句子,要求“虽然”跟“但是”相隔4个字,“但是”跟“了”相隔4到8个字。语料范围限定在“报刊”语料中。 普通查询 / 选择范围
    28 path:孔子 path:宋 查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 普通查询 / 选择范围
    29 path:[孔子 宋] 查询语料范围为文件夹或文件名称中同时包含“孔子”和“宋”两个关键词。 普通查询 / 选择范围
    30 path:孔子|宋 查询语料范围为文件夹或文件名称中或者包含“孔子”,或者包含“宋”,即两个关键词有其一即符合查询条件。 普通查询 / 选择范围
    31 有一种(X,=2)叫(Y,=2) 在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都为两个汉字字符。(返回结果:有一种力量叫感动;有一种放弃叫成全;……) 模式查询
    32 有一种(X,<5)叫(Y,<5) 在模式查询页面,查询“有一种X叫Y”这样的例子,其中X和Y是两个不同的字符串,且长度都在5个字符以内。 模式查询
    33 有一种+2叫 path:微博 在普通查询页面,查询“有一种X叫Y”这样的例子,X是两个字符,在“微博”文件夹范围内查找。 普通查询
    34 (X,1-4)的(X)(Y,1-4)的(Y,1-4) 在模式查询页面,查询“死的死逃的逃”这样的例子,其中X和Y是两个不同的字符串,且X的长度在1-4个字符;Y的长度也是1-4个字符。 模式查询
    35 (v1)也(v1)不了,(v2)也(v2)不掉 在模式查询页面,查询“走也走不了,甩也甩不掉”这样的例子,其中两个变项都是动词v(不同形),第2个变项v后跟着逗号。v的长度没有限制。
    ※ 模式查询中支持的词性主要包括动词(v)、名词(n)、形容词(a)、副词(d)、代词(r)。
    模式查询
    36 (v)也得(v),不(v)也得(v) 在模式查询页面,查询“走也得走,不走也得走”这样的例子,其中两个变项都是动词v(同形),第2个变项v后跟着逗号。v的长度没有限制。 模式查询
    37 一个(n,<3)和(n,<3) 在模式查询页面,查询“一个人和人”这样的例子,其中两个变项都是名词n(同形),n的长度小于3个字符。 模式查询
    38 穿(n,2-3) 在模式查询页面,查询“穿”后接名词n的例子,变项n的长度为2到3个字符。 模式查询
    39 爱(v,=1)不(v) 在模式查询页面,查询“爱X不X”这样的例子,其中X变项为动词v,且是单音节动词。(返回结果:爱借不借;爱理不理;爱管不管……) 模式查询
    40 爱(v,<3)不(v) 在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长小于3,即为单音节动词或双音节动词; 模式查询
    41 爱(v,1-3)不(v) 在模式查询页面,查询“爱X不X”模式的例子,其中X变项为动词v,词长在1到3之间,即可以是单音节、双音节、三音节动词; 模式查询
    42 Internet enname:Intranet 查询英语语料篇名含“Intranet”的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名
    ※ 可检索的文件名(name(中), enname(英))请参考高级查询模式下“参考”栏中的“中文篇名列表”与“英文篇名列表”。
    普通查询 / 双语查询
    43 Internet enname:Intranet enname:Groupware 查询英语语料篇名含“Intranet”以及“Groupware”两个关键字的文件中包含“Internet”的例句。查询表达式中“enname”用于指定篇名,可以多项并列使用,各项之间用空格分开。 普通查询 / 双语查询
    44 Internet enname:[Intranet|Groupware] 查询英语语料篇名含“Intranet”或者“Groupware”两个关键字的文件中包含“Internet”的例句。 普通查询 / 双语查询
    45 ch:以太网 en:Ethernet 查询中文句子中包含“以太网”以及英文句子中包含“Ethernet”的汉英双语对照例句。查询表达式中“ch”对应中文句子,“en”对应英文句子。 普通查询 / 双语查询
    46 查询表达式1:宁可$10也
    查询表达式2:也-4不 也-0要
    查询“宁可”和“也”间隔10个字的句子,同时排除“也”后4个字范围内出现“不”,“也”后紧邻出现“要”的句子。

    执行顺序:先在“普通查询”页面,按照查询表达式1进行查询;
    然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。
    普通查询
    47 查询表达式1:一个(n1,<3)和(n2,<3)
    查询表达式2:一个~0每
    查询“一个n1和n2”(如“一个毯子和饭包”)这样的例句,同时排除“每一个国家和地区”这样的句子。后者用“一个~0每”这个查询表达式可以过滤掉。该查询表达式的含义是,关键词“一个”的左边不能紧邻出现关键词“每”。

    执行顺序:先在“模式查询”页面,按照查询表达式1进行查询;
    然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮。
    模式查询
    48 查询表达式1:澡$4洗
    查询表达式2:洗-5澡
    查询表达式3:澡-0,
    查询表达式4:澡-0、
    查询表达式1:“澡”出现在“洗”的左侧(即句子中先说了“澡”,后面再说“洗”),目的是查找句子中“洗澡”这个词的离合用法。例如:他连澡都没洗,……
    查询表达式2:“洗”和“澡”之间间隔0到5个字。目的是把“洗……澡”这类离合用法,以及直接连用的“洗澡”非离合用法从查询表达式1的结果中剔除出去。
    查询表达式3:把“澡”后紧挨着逗号“,”的例句,再从查询表达式2的检索结果中剔除出去。
    查询表达式4:把“澡”后紧挨着顿号“、”的例句,再从查询表达式3的检索结果中剔除出去。

    执行顺序:先在“普通查询”页面,按照查询表达式1进行查询;
    然后在返回检索结果页面,输入查询表达式2,点击“在结果中查询”按钮;
    然后再在返回检索结果页面,输入查询表达式3,点击“在结果中查询”按钮;
    然后再在返回检索结果页面,输入查询表达式4,点击“在结果中查询”按钮。
    普通查询
    49 查询表达式5:澡$4洗 洗-5澡 澡-0, 澡-0、 跟上面查询表达式1——4的查询效果相同。查询表达式5是在检索框中输入一个复杂的查询表达式,一次实现上述检索意图。 普通查询
    50 错误示例: 澡$4洗-0,-0、 这是错误示例。错误理由是:在链式复杂项中,只有“+”和“$”可以连用,而“-”不可以连用。正确示例请参考第48行、49行。 普通查询

    --- 正文完 ---

    联系人:詹卫东(zwd@pku.edu.cn)

    如遇技术问题,请发邮件至:zmzhou25@stu.pku.edu.cn