词条 | 后控词表 |
释义 | 后控词表:也称为词间关系词表,它是利用受控语言的基本原理和方法编制的自然语言检索用词表。 概念 后控词表:也称为词间关系词表,它是利用受控语言的基本原理和方法编制的自然语言检索用词表。 后控词表的四种模式: (1)标引控制+检索控制 同时在标引和检索阶段使用词表; (2)标引控制+检索不控制 只在标引阶段使用词表,检索阶段直接使用自然语言检索; (3)标引不控制+检索控制 用自然语言标引,但通过控制词表检索,具体检索用词即可以是自然语言,也可以是词表中的词; (4)标引不控制+检索不控制 标引和检索时都使用自然语言,不使用任何词表。 这四种方式中,第一、二种方式为先控系统模式,第四种为纯自然语言检索模式,而所谓后控制检索就是上面所提到的第三种模式。 “后控”是指在系统输入阶段不进行控制,而在系统输出阶段进行一定的控制,它把“控制”不放在标引阶段,而放在检索阶段。后控检索一般通过后控词表来实现。 后控制技术:后控制技术是指检索系统在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。 自然语言与受控语言的比较: 分类语言 优点:能够将同一学科性质的文献信息集中,以满足人们从学科门类对事物对象与问题进行“族性检索”的需要,便于检全某一学科或专业的文献信息,具有较强的系统性;缺点:将同一主题的文献信息分散在各个学科中,检索专深课题的直接性较差,标识不直观,不易为用户掌握; 主题语言 优点:能够将同一主题的文献加以集中,适应人们对事物对象与问题进行“特性检索”的需要,检索专深课题的直接性较强,标识直观;缺点:不能很好地体现知识内容之间的学科性质区分割学科之间的连续,将同一学科性质的文献分散于各个主题之间; 自然语言 优点:自然语言标识更加专指,更加符号用户的语言习惯,特别适合检索专深课题和最新出现的概念词汇,检索直接性更强;缺点:由于不加规范,不能显示语词之间的关系,难以进行族性检索,特性检索的检索效率也不高; 对应实例: 自然语言:微型计算机,微机,微电脑,个人电脑 受控语言:微型计算机 优点 后控词表与自然语言检索系统的结合,在很大程度上弥补了纯自然语言检索系统由于自然语言的“不受控制”产生的缺陷,大大提高自然语言检索系统的性能和效率。 特点 ①不承担标引功能,只用于检索控制。是一种通过揭示和建立词语之间的联系,进行相关检索的工具。 ②词汇控制不如先控词表严格。通常进行同义词、近义词及不同书写形式的控制,必要时也可以根据需要适当处理等级关系和相关关系,对等级结构的形式和词汇关系的具体处理要求一般因系统的特点而变化。 ③人口词丰富。一般应广泛收入常用检索词的同义词、近义词、俗称、缩写、流行语、俚语,甚至外文、部分常见的错误输入形式等,使得用户可以通过词表,从尽可能多的语词的角度进行查找。 ④动态性强。应能够及时反映标引和检索的变化,是一个随着标引关键词、检索词的使用情况动态增长的词表。 ⑤有较强的灵活性和自由度。后控词表由于没有规范标引的压力,其编制不必像先控词表那样系统、严密,可以根据需要,对有关领域或对象的词汇有选择地进行处理。例如,可以根据检索频率,有针对性地对高频词进行整理处理。又如,可以根据使用需要,有针对性地对有关范畴的词汇进行处理等。 ⑥具有面向文献和用户的特点。先控词表虽然也强调文献保证和用户保证,但不如后控词表直接。后控词表一般是直接在自由标引或检索词的基础上进行处理的,词汇往往更加专指,分布上也相对集中,就重点专题而言,收词应是最充分、最完备的,具有兼容工具的功能。 ⑦词问关系不同于传统词表。后控词表中,等同关系的显示,实际上不是用代关系,而是一种互见关系(不同的语词形式都可以用作标引词或检索词),必要时也可以根据检索需要确定不同词之间的显示顺序。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。