词条 | 自动标引 |
释义 | 自动标引,英译automatic indexing 。利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。 自动标引检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。 自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。 自动标引系统一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。 ①文本输入子系统对事实情报或文献文本进行自动标引前,必须使之变为机器可读形式,并按一定格式加以组织,这就是输入子系统的任务。通常,输入子系统处理的结果是将文本以数据库或文档中的记录形式存储在磁介质上。每个记录中包括供标引用的若干字段或子字段(如题目、文摘、文本段落等)。 ②词典子系统自动标引词典是存储在计算机系统内的一部或多部词表。因标引的目的要求不同,词表的结构和组织也有很大差别。在赋词标引系统中,词表通常是手工标引用的受控词表(如主题词表)。这种词表中的词之间具有整体-局部、 种-属、 同义和相关关系。在抽词标引系统中,全关键词标引词表是一种禁用词表(亦称非用词表),即词表中收入的词都不作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类,组配等。在标引过程中,通过查找机器词典确定关键词与非用词、词组构成与切分。 ③抽词子系统通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。对于汉语这样的拼音文字来说,词间没有空格,不能进行逐词扫描。因此,汉语抽词子系统的首要任务,是将连续书写的汉字文本切分为有空格分隔的词。汉语自动切分,又称汉语自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。分词的方法主要有:最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。 ④知识库子系统是人工标引中选词知识形式化的规则集合。总结人工标引经验,人们发现,人工标引包括主题分析、选择表述主题的关键词和把关键词转换为规范主题词 3个阶段。这些经验通过主题句法、频率法、概率法、加权法、语法分析法和语义分析法等方法加以形式化,用语义网、框架等知识表达方式构造成知识库。 ⑤综合与转换子系统依据知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规范化规则,将选出的关键词转换为规范化词语。 ⑥输出子系统将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。 代表方法根据见诸于报道的自动标引研究情况,结合自动标引研究领域的影响程度和自动标引方法的创新程度,归纳出1957~2007年五十年时间里比较有代表性的自动标引方法。 1957年,Luhn开始自动标引研究,首次将计算机技术引入文献标引领域,开创了以词频为特征的统计标引方法,其理论基础是Zipf定律,该方法具有一定的客观性和合理性,并且简单易行,在自动标引中占有重要地位。 1958年,Luhn提出基于绝对频率加权法的自动标引方法 ; P.B.Baxendale提出从论题句和介词短语中自动提取关键词。 1959年,Edmundson与Oswald提出基于相对频率加权法的自动标引方法。 1960年,Maron & Kuhns提出基于相关概率的赋词标引方法 1969年,H.P.Edmundson提出了一些新的加权方法,如提示词(预示词)加权法、题名加权法、位置加权法,并探讨了不同加权法的最优组合问题 1970年,Lois L. Earl利用句法分析等语言学方法与词频统计方法相结合的方法来提取关键词 1973年,Salton等提出基于词区分值的自动标引方法 1975年,Salton等将VSM模型用于自动标引中1983年,Dillon等提出一种基于概念的自动标引方法,研制了FASIT系统 1985年,Devadason提出基于深层结构标引方法 1990年,Deerwester & Dumais等提出潜在语义分析标引法 1993年,Silva & Milidiu提出基于相信函数模型的赋词标引方法 1995年,Cohen提出N-Gram分析法的自动标引方法 1997年,简立峰提出基于PAT树的关键词提取方法 1999年,Frank等人提出基于朴素贝叶斯(Naive Bayes,NB)的关键词提取方法 ;Turney 利用遗传算法和C4.5决策树算法等机器学习方法进行关键短语提取的研究 2001年,Anjewierden & Kabel提出基于本体的自动标引方法 2003年,Tomokiyo & Hurst提出了基于语言模型的关键词提取方法;Hulth利用Bagging算法进行了基于集成学习的关键词抽取 2004年,李素建提出基于最大熵模型的关键词提取方法 2006年,张阔提出基于支持向量机自动标引模型 2007年,Ercan, G. & Cicekli, I提出基于词汇链的自动标引方法 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。