词条 | 计算风格学 |
释义 | 计算机设计语体风格 是人们在语言表达活动中的个人言语特征,是人格在语言活动中的某种体现。这种风格可在一定程度上通过数量特征来刻画。 能够区别文学作品的特征主要有 用词、句式、修辞手法、中心意象、主题等等 能利用的特征有 语音、字、词、句子、段落等等语篇结构的信息。 计算风格学可被应用来解决“作者考证”这种问题。当然要十分谨慎。 如:捷泽等学者关于《静静的顿河》的作者考证。 计算风格学语体风格是人们在语言表达活动中的个人言语特征,是人格在语言活动中的某种体现。这种风格可在一定程度上通过数量特征来刻画。计算风格学就是通过量化的方法反映语体或作家风格的研究。 能够区别文学作品的特征主要有 用词、句式、修辞手法、中心意象、主题等等。但是能用于统计的特征有语音、字、词、句子、段落,语篇结构等等可以量化考察的信息。因此它反映的不是作者想表现的内容,而是作者行文中不经意间体现出的用词造句习惯。 最常用的方法是字、词频率统计。 除了使用词语频率的方法以外,许多文本信息都可供使用。例如句长和词长可以代表人们造词句的风格。 句长是句子中的单词数,词长是词中的音节数,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长。 平均词长M=语料中音节总数L/单词总数N 平均句长=语料中音节总数L/句子总数N 此外还有作者在同义词使用中的倾向性。是值得利用但较困难的。 计算风格学可用来解决“作者考证”的问题。当然,由于没有严格的可行性,操作要十分谨慎。 语体风格是人们在语言表达活动中的个人言语特征,是人格在语言活动中的某种体现。这种风格可在一定程度上通过数量特征来刻画。计算风格学就是通过量化的方法反映语体或作家风格的研究。 能够区别文学作品的特征主要有 用词、句式、修辞手法、中心意象、主题等等。但是能用于统计的特征有语音、字、词、句子、段落,语篇结构等等可以量化考察的信息。因此它反映的不是作者想表现的内容,而是作者行文中不经意间体现出的用词造句习惯。 最常用的方法是字、词频率统计。 除了使用词语频率的方法以外,许多文本信息都可供使用。例如句长和词长可以代表人们造词句的风格。 句长是句子中的单词数,词长是词中的音节数,反映作者风格的不是单个词的词长和单个句子的句长,而是以一定数量的语料为基础的平均句长和平均词长。 平均词长M=语料中音节总数L/单词总数N 平均句长=语料中音节总数L/句子总数N 此外还有作者在同义词使用中的倾向性。是值得利用但较困难的。 计算风格学可用来解决“作者考证”的问题。当然,由于没有严格的可行性,操作要十分谨慎。 举例说明我们知道,学界的主流观点是,《红楼梦》后四十回并非出自原作者曹雪芹之手。下面让我们通过一系列的研究来看计算风格学是如何考证《红楼梦》作者的统一性的。 1970年,赵冈提出了使用“的”、“了”、“在”、“几”、“着”5个字的出现频率来研究《红楼梦》的作者问题,得出了前80回和后40回出自不同人之手的结论。1980年,在威斯康辛大学举办的首届国际《红楼梦》研讨会上 ,陈炳藻发表《从词汇上的统计论〈红楼梦〉的作者问题》一文。 陈炳藻教授的研究结果 1986年,陈炳藻教授公开发表了《电脑在文学上的应用:〈红楼梦〉与〈儿女英雄传〉两书作者用词的比较》一文;之后又出版了《电脑红学:论〈红楼梦〉作者》的专著。 陈炳藻将《红楼梦》一百二十回本按顺序编成三组,每组四十回。并将《儿女英雄传》作为第四组进行比较研究。 从每组中任取八万字,分别挑出名词、动词、形容词、副词、虚词这五种词,通过计算机程序对这些词进行编排、统计、比较和处理,进而找出各组相关程度。 结果发现《红楼梦》前八十回与后四十回所用的词汇正相关程度达78.57%,而《红楼梦》与《儿女英雄传》所用词的正相关程度是32.14%。由此推断得出前八十回与后四十回的作者均为曹雪芹一人的结论。 张卫东、刘丽川的观点 深圳大学学报(人文社会科学版)1986年 01期 发表了《〈红楼梦〉前八十回与后四十回语言风格差异初探》一文。利用某些用字、用词及回尾处理等差异做了比较研究。 一、在录入文本时使用了GB2312汉字编码体系。在GB2312的6763个汉字以外,还有240个汉字,这其中只有10个字同时出现在前后两部分。其中210字只出现在前80回,20字只出现在后40回。而重要的是,有些字并非只出现了一次。 1、有些脏字在前80回多次出现,且为日常骂人话,然而在后40回根本没有出现。 2、𣢑、嗐、搳 “𣢑”通“嘻”,前80回混用,后四十回统一为“嘻” “嗐”与“咳”,前80回混用,后40回只用“嗳” “搳”是“划(拳)”的异体字,前80回用“划”,后40回用“搳” 二、每一回结尾的格式 前八十回大致有五种 1.要知端的(端详),(且听)下回分解。 2.正是—— (或者后跟一联韵文) 3.自然终止行文 4.不知……,((且听)下回分解。) (……),(且听)下回分解。 5.后(下)回再(便)见 后四十回基本都是“未知(不知、要知、欲知)……(如何),(且听)下回分解。” 因此前后两部分并非一人所作。 李贤平的分析论点 1987李贤平发表了《〈红楼梦〉成书新说》作者选择了四十七个虚字的出现频率,有时还用到句长分布。 (1)十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃 (2)九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。 (3)十三个常用的白话虚字:了、的、着、一、不、把、让、向、往、是、在、别、好。 (4)十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、很、偏。 (5)后缀于名词的“儿”字和后缀于副词、形容词和动词的“儿”字。 采用了各种统计分析方法(主要有主成份分析,典型相关分析,多维尺度法,广义线性模型,类卡方距离与相关系数等等) 利用以上信息,作者推断出结论: 《红楼梦》前八十回是曹雪芹据《石头记》增删而成,其中插入他早年著的《金瓶梅》式小说《风月宝鉴》,并增写了具有深刻内涵的许多内容。 《红楼梦》后四十回是曹家亲友在曹雪芹全书尚未完成就突然去世之后,搜集整理原稿并加工补写而成。程伟元将全稿以活字版印刷刊行。高鹗校勘异文补遗订讹。 在上述的例子中,研究者的主要方法都是选取关键词,通过统计关键词的频率,分析文本的特征。我们看到,选取的关键词不同,分析结果就可能有较大的差距。这反映了目前计算风格学缺乏坚实的理论基础和方法论,因而这种分析方法必须谨慎使用。 对计算风格学的思考谨慎对待计算风格学 张首映指出,单个作家的“语言风格”是不可求证的,(文学自由谈,1988(4)) 单个作家的“语言风格”,无论在时间之轴上,还是在空间之维中,都必定不可能产生。林语堂式的幽默,沈从文式的淡雅,都是不同的言语风格,而不是语言风格。因此计算起来可能很难。 这一论断表明,我们不可能以量化的数值来表示绝对的作家风格。计算风格学的量化指标都只能作相对参考。 现有研究方法 目前的研究中利用到的特征主要分为以下几类: 常用字——优点是能够反映作者的写作倾向,但是必须要考虑是否应去掉文中专有名词,使结果不受单部作品的影响。 虚词——能独立于文本的内容。 罕用字——只有当频次较高的时候才比较有说服力,否则只能看作偶然出现。 句型——优点是直接关系到作者与文体的风格;缺点是目前自动识别容易出错,影响结论。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。