“信息抽取”的意思、由来-中文百科全书

简介

信息抽取 Information Extraction 技术

信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。

由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！

信息抽取 Information Extraction 挑战

信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。

信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。

IR &IE区别

IR和IE

IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。

就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。

IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。

IE的历史

自动信息检索已是一个成熟的学科，其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一是“消息理解研讨会”（MUC）近十几年来对该领域的关注和推动。

IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差[53]。

八十年代以来，美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域，开发一个信息抽取系统，然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。

研讨会的目的是探求IE系统的量化评价体系。在此之前，评价这些系统的方法没有章法可循，测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题，评分标准也随之制定出来。各届研讨会的测试主题各式各样，包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。

过去五、六年，IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平，我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来，每届最高组别的有些任务，其成绩一直没有提高（但要记住MUC的任务一届比一届复杂）。一个显著的进步是，越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前，建造能达到如此高水平的系统需要大量的时间和专业人员。另外，目前大部分的研究都是围绕书面文本，而且只有英语和其他几种主要的语言。

词条	信息抽取
释义	信息抽取（Information Extraction: IE）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。简介(信息抽取 Information Extraction 技术信息抽取 Information Extraction 挑战) IR &IE区别(IR和IE IE的历史) 简介信息抽取 Information Extraction 技术信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用的。互联网上就存在着这么一个文档库。在网上，同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。由于网上的信息载体主要是文本，所以，信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统。因此，成功的信息抽取系统将把互联网变成巨大的数据库！信息抽取 Information Extraction 挑战信息抽取技术是近十年来发展起来的新领域，遇到许多新的挑战。信息抽取原来的目标是从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如新闻报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息[52]。网上文本信息的大量增加导致这方面的研究得到高度重视。 IR &IE区别 IR和IE IR的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找到的文档中翻阅自己所要的信息。就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具[24]。 IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响[24]。 IE的历史自动信息检索已是一个成熟的学科，其历史与文档数据库的历史一样长。但自动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一是“消息理解研讨会”（MUC）近十几年来对该领域的关注和推动。 IE的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好，向其他新领域移植的性能却很差[53]。八十年代以来，美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域，开发一个信息抽取系统，然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。研讨会的目的是探求IE系统的量化评价体系。在此之前，评价这些系统的方法没有章法可循，测试也通常在训练集上进行。MUC首次进行了大规模的自然语言处理系统的评测。如何评价信息抽取系统由此变成重要的问题，评分标准也随之制定出来。各届研讨会的测试主题各式各样，包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司管理层的人事更迭。过去五、六年，IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平。通过MUC用现有的技术水平，我们已有能力建造全自动的 IE系统。在有些任务方面的性能达到人类专家的水平[53]。不过自1993年以来，每届最高组别的有些任务，其成绩一直没有提高（但要记住MUC的任务一届比一届复杂）。一个显著的进步是，越来越多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前，建造能达到如此高水平的系统需要大量的时间和专业人员。另外，目前大部分的研究都是围绕书面文本，而且只有英语和其他几种主要的语言。
随便看	玉液膏玉液金丹玉液金液玉液酒玉液泉玉液丸玉液消渴冲剂玉液穴玉液圆玉液至宝丹玉液煲鸡玉医玉依姬玉蚁玉意拉康玉异兽形砚滴玉异兽形璜玉翼蝉娟玉翼附蝉翎玉觽玉印玉印山玉印章玉缨玉影肖炜肖炳信烈士肖炳南烈士肖炳庆烈士肖炳德烈士肖炳煊烈士肖炳玉烈士肖烂桂烈士肖烧古烈士肖焕伟肖焕庆烈士肖焕生烈士肖焰成烈士肖然肖照烈士肖燕肖爱云烈士肖爱华肖爱秀烈士肖牛仔烈士肖牛估烈士肖牛运势肖牧根草属肖物肖狗运势