“统计语言学”的意思、由来-中文百科全书

网站首页百科词库1 百科词库2

词条

统计语言学

释义

§ 统计语言学

§ 正文

数理语言学的一个分支，应用统计数学的方法来研究语言现象的语言学科。统计语言学的研究领域目前主要包括以下几个方面：

①统计语言单位的出现频率，如对词汇和音位、语素出现的频率进行统计研究。

②统计作家的用词频率、词长分布和句长分布，以了解作家运用语言的风格；用这种方法还可判定匿名文章的作者。

③计算语言存在的绝对年代以及亲属语言从共同原始语分化出来的年代,这方面的研究叫做语言年代学,又称为词源统计分析法。此外,还可对亲属语言的语法、语音体系进行统计、比较。

④采用信息论方法研究语言的熵和羡余度。语言的熵就是在交际过程中语言符号出现的不定度。不定度的大小与语言的熵的高低一致。当语言的接收者接收到语言符号之后，不定度被消除，熵等于零，因而在交际过程中，语言接收者所得到的信息量恰恰等于被消除的熵。语言的羡余度是指语言中超过传递最少需要量的信息量的比例，在一般情况下,人们为了保证对方能够理解,总是提供比实际需要多得多的信息量，因此，不论在书面语还是口语中，语言都有羡余度。

⑤探讨语言的一般统计规律。例如，在按频率递减顺序排列的频率词典中，词的序号越大，词的频率越小，序号与频率之间的关系可以用数学公式描述为一定的统计规律，这个统计规律叫做齐夫定律，因其研究者之一、美国语文学家G.K.齐夫而得名。

⑥运用随机过程论来研究语言，把语言看成彼此联系的字母序列，前一个字母决定后一个字母的出现，于是形成一条字母链，叫做马尔科夫链，因其最早的研究者俄国数学家A.A.马尔科夫而得名。

⑦研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距，以揭示文章在句法或语义上的特征。

⑧研究语言的词汇与文章长度的关系，以揭示文章中词汇的丰富程度和差异程度。

统计语言学在数理语言学中有比较悠久的历史。古印度语法学家在研究《吠陀》时，就进行过单词和音节数目的统计。1851年,英国数学家A.德·摩尔根 (1806～1871) 曾把词长作为文章风格的一个特征加以统计研究。苏格兰学者L.坎贝尔于1867年、德国学者W.迪丁贝尔格于1881年都曾采用统计方法确定柏拉图著作的写作时期。1887年，美国学者T.C.门登霍尔对英国文学作品、特别是莎士比亚的作品进行过统计分析。1913年，马尔科夫研究了俄语中字母序列的生成问题，提出了马尔科夫随机过程论。1935年，齐夫发表了齐夫定律。1944年，英国数学家G.U.尤勒在《文学词语的统计分析》一书中广泛使用概率和统计方法来研究语言。1950年，美国学者M.斯瓦德士进行了语言年代学的研究。1951年，美国数学家C.申农采用信息论的方法研究书面英语中的熵和羡余度；美国学者 V.英格韦对句法现象进行了间距分析。1954年，法国学者P.基罗根据文章中词的频率分布提出了词汇丰富度的概念。1956年，英国学者G.赫尔丹出版了《语言是选择和机遇》一书，系统总结了统计语言学的研究成果。近30年来，在语言统计中日益广泛地使用计算机，逐渐改变了传统的手工查频、统计的办法，提高了统计的效率和精度。

统计语言学大致可分为语音统计学、词汇统计学、语法统计学和语义统计学,分别研究语言的语音、词汇、语法和语义的统计特征。从描写的角度出发，词汇统计学又可以分为年代统计学、风格统计学和分类统计学3 个分支，分别根据时代的变化、作者写作风格的不同和语言的类属或起源对词汇特征进行统计分析。

统计语言学的许多研究成果，对于通信技术、语言教学和自然语言的信息处理都很有价值。

参考书目

G.Herdan,Quɑntitɑtive Linɡuistics,Butterworths,London,1964.

§ 配图

§ 相关连接

随便看

百科全书收录594082条中文百科知识，基本涵盖了大多数领域的百科知识，是一部内容开放、自由的电子版百科全书。