“语料库”的意思、由来-中文百科全书

概述

定义

在语言学中，语料库（Corpus）指大量文本的集合，库中的文本（称为语料）通常经过整理，具有既定的格式与标记，特指计算机存储的数字化语料库。

语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。

语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。

除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。目前已经累积了大量各种类型的语料库，如：葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务（SMS）语料)等。

特征

语料库有三点特征

1.语料库中存放的是在语言的实际使用中真实出现过的语言材料，因此例句库通常不应算作语料库；

2.语料库是承载语言知识的基础资源，但并不等于语言知识；

3.真实语料需要经过加工(分析和处理),才能成为有用的资源。

语料库的发展经历了前期（计算机发明以前），第一代语料库，第二代语料库，到第三代语料库

第三代语料库

定义

【动态流通语料库】

第三代语料库是历时语料库.是基于大规模真实文本的语料库,是对语言文字的使用进行动态追踪的语料库,是对语言的发展变化进行监测的语料库,是"活"的语料库.

苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级[1].该文实际上已经将下一代语料库的建设提上议事日程.

两大特色

第三代语料库有两大特色:

1,语料的动态性:语料是不断动态补充的.

2,语料的流通性:语料又多了一种新的"流通度"属性,这是一种具有量化的属性值的属性.

特点

【第三代语料库的特点】

时代:六,七十年代到八十年代及九十年代以来.

语料:从单语种到多语种.

数量:从百万级到千万级再到亿级和万亿级.

加工:从词法级到句法级再到语义和语用级.

文本:从抽样到全文.

特点一:动态性

不确定一个固定的库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字等);

不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等)

不确定一个固定的文本选择范围或应用领域(例如:确定为只收现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库);

不确定一些固定的文本抽样对象(例如:《人民日报》,《光明日报》,《人民文学》,《小说选刊》,或者老舍著作,巴金著作,毛泽东著作,邓小平著作等).

是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取.

是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡.

是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,我国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢 )

特点二:流通性

1997年全世界期刊发行量最大的前50名的中国期刊(略)

双语或多语语料库

分类

目前大致可分为三类：

一是研究双语语料的对齐技术（Alignment），国内外学者就此提出多种策略和方法，现在已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993]；

二是研究双语语料的各种应用，如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984]，双语词典编纂[Klavans and Tzoukermann 1990]技术中，双语语料库都发挥着十分重要的作用；

三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准，两者均基于SGML标记语言

关于双语或多语语料库的研究

指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文，因此可以用于翻译或者机器翻译研究；对照语料库中两种或多种语言的文本不构成对译关系，只是领域相同，主题相近。通常只能用于两种或多种语言的对比。

。

就前两类研究来说，中国国内目前做了较多的跟踪研究工作，而对于第三类研究，即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究，探索工作似乎做的相对较少。

目前国内最大的语料交换平台是瓦特开元。

词条	语料库
释义	关于语料库的三点基本认识：语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源; 概述(定义分类特征) 第三代语料库(定义两大特色特点) 双语或多语语料库(分类关于双语或多语语料库的研究) 概述定义在语言学中，语料库（Corpus）指大量文本的集合，库中的文本（称为语料）通常经过整理，具有既定的格式与标记，特指计算机存储的数字化语料库。语料库是语料库语言学研究的基础资源，也是经验主义语言研究方法的主要资源。应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面。分类语料库有多种类型，确定类型的主要依据是它的研究目的和用途，这一点往往能够体现在语料采集的原则和方式上。有人曾经把语料库分成四种类型：（1）异质的（Heterogeneous）：没有特定的语料收集原则，广泛收集并原样存储各种语料；（2）同质的（Homogeneous）：只收集同一类内容的语料；（3）系统的（Systematic）：根据预先确定的原则和比例收集语料，使语料具有平衡性和系统性，能够代表某一范围内的语言事实；（4）专用的（Specialized）：只收集用于某一特定用途的语料。除此之外，按照语料的语种，语料库也可以分成单语的（Monolingual）、双语的（Bilingual）和多语的（Multilingual）。按照语料的采集单位，语料库又可以分为语篇的、语句的、短语的。双语和多语语料库按照语料的组织形式，还可以分为平行（对齐）语料库和比较语料库，前者的语料构成译文关系，多用于机器翻译、双语词典编撰等应用领域，后者将表述同样内容的不同语言文本收集到一起，多用于语言对比研究。目前已经累积了大量各种类型的语料库，如：葡萄牙语种树库、面向文本分类研究的中英文新闻分类语料库、路透社文本分类训练语料库、中文文本分类语料库、大开放字幕库OpenSubtitles的多语言平行语料数据(OpenSubtitles Corpus)、《圣经》双语语料库("Bible" bilingual corpus)、Short messages service(SMS ) corpus(短消息服务（SMS）语料)等。特征语料库有三点特征 1.语料库中存放的是在语言的实际使用中真实出现过的语言材料，因此例句库通常不应算作语料库； 2.语料库是承载语言知识的基础资源，但并不等于语言知识； 3.真实语料需要经过加工(分析和处理),才能成为有用的资源。语料库的发展经历了前期（计算机发明以前），第一代语料库，第二代语料库，到第三代语料库第三代语料库定义【动态流通语料库】第三代语料库是历时语料库.是基于大规模真实文本的语料库,是对语言文字的使用进行动态追踪的语料库,是对语言的发展变化进行监测的语料库,是"活"的语料库. 苑春法,黄昌宁等人在1995年著文谈到"第三代语料库"的问题,并且介绍了美国计算语言学学会倡议的数据采取计划ACL/DCI.认为这一代语料库首先对所有可以得到的语料以文本形式存储起来,它的容量一般为一亿词次以上,21世纪可望达到万亿词次的量级[1].该文实际上已经将下一代语料库的建设提上议事日程. 两大特色第三代语料库有两大特色: 1,语料的动态性:语料是不断动态补充的. 2,语料的流通性:语料又多了一种新的"流通度"属性,这是一种具有量化的属性值的属性. 特点【第三代语料库的特点】时代:六,七十年代到八十年代及九十年代以来. 语料:从单语种到多语种. 数量:从百万级到千万级再到亿级和万亿级. 加工:从词法级到句法级再到语义和语用级. 文本:从抽样到全文. 特点一:动态性不确定一个固定的库容量(例如:把库容量目标确定为数百万字,上千万字,数千万字,数亿字等); 不确定一个固定的选择文本的时间段(例如:确定为49年-82年,80年-90年,90年-95年语料等) 不确定一个固定的文本选择范围或应用领域(例如:确定为只收现代汉语文学语料,或新闻语料,或科技语料或中小学生语料等,从而建立一些专门的语料库); 不确定一些固定的文本抽样对象(例如:《人民日报》,《光明日报》,《人民文学》,《小说选刊》,或者老舍著作,巴金著作,毛泽东著作,邓小平著作等). 是即期抽取的语料库:根据大众媒体的传播情况,依据一定的原则来动态抽取. 是历时的语料库:可以观察和测量到流通度的变化情况,可以追踪到语言成分的产生,成长和消亡. 是动态变化的语料库:大众传播媒体的情况是在不断变化的,语料库也要相应变化.(例如:1978年,我国报纸只有186种,基本上是单一的党委机关报,到1995年底,已经增加到2202种,平均期印数增加4倍,总印张增加3·5倍,报纸的品种,功能,发行都有了相当大的变化如果要科学地反应语言的流通应用情况,语料库的容量,选材,抽样等怎么可能一成不变呢 ) 特点二:流通性 1997年全世界期刊发行量最大的前50名的中国期刊(略) 双语或多语语料库分类目前大致可分为三类：一是研究双语语料的对齐技术（Alignment），国内外学者就此提出多种策略和方法，现在已经出现了许多对齐双语或多语语料的程序或工具[Gale 1993]；二是研究双语语料的各种应用，如在基于统计的机器翻译技术[Brown 1990]、基于实例的机器翻译技术[Nagao 1984]，双语词典编纂[Klavans and Tzoukermann 1990]技术中，双语语料库都发挥着十分重要的作用；三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI 文本编码标准以及CES标准，两者均基于SGML标记语言关于双语或多语语料库的研究指不只有一种语言的语料库。分为平行语料库和对照语料库两种。平行语料库指库中的两种或多种文本互相是对方的译文，因此可以用于翻译或者机器翻译研究；对照语料库中两种或多种语言的文本不构成对译关系，只是领域相同，主题相近。通常只能用于两种或多种语言的对比。。就前两类研究来说，中国国内目前做了较多的跟踪研究工作，而对于第三类研究，即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究，探索工作似乎做的相对较少。目前国内最大的语料交换平台是瓦特开元。
随便看	斑鳐斑鳜斑鳢斑鬣狗斑鬣狗属斑麝鼩属斑黛克蒂寺斑鼯猴斑鹟班班倢伃班尓奇班弨班·贝克曼班·贝克曼班·费德雯班·卡敏班·约翰森班甡生班巴班巴·安德森班巴拉班巴拉人班巴拉语班巴里