请输入您要查询的百科知识:

 

词条 ShopBot
释义

基于结构化或半结构化的网页信息抽取系统

开发者:R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。

ShopBot 是比价代理系统,专门从网上卖家的网站上抽取信息,因此,比其他系统的局限性要大。其算法主要针对以表单形式提供查询的页面,而且返回的搜索结果是以表格形式显示的产品信息页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式学习。

ShopBot的运行分两个阶段:离线学习阶段和在线比价阶段。在学习阶段,系统分析每个购物网站,获得其符号化描述,然后在比价阶段,利用获得的符号化描述,从网站上抽取信息,找到用户指定的产品的最低价格。

在学习阶段,系统利用简单的启发式方法找到正确的检索表单,学习如何向该表单发送查询请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部等三部分。头尾两部分在所有的结果页面中都是一致的,而主体则包含了想要的产品信息。结果页面的格式是通过三个步骤判定的:

第1 步:获取“找不到产品”的失败页面。用不存在的词(如“xldccxx-no-product”)作为关键字查询数据库,然后分析返回的页面。

第2 步:找到头尾部分。用可能存在的产品名称去查询数据库,通过分析返回的页面找到头尾部分。

第3 步:判定包含产品信息的主体格式。首先用HTML 标记和字串对可能的产品信息摘要进行定义和表示。

网页主体被切分成“逻辑行”,代表“垂直空格分隔”(vertical-space-delimited)的文本。学习程序用逻辑行比较不同的摘要形式,找到最佳匹配。这样可以找到产品的描述格式,但是不能归纳出信息栏的名称。最关键的价格信息是用手工编码的方法获取的。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2024/12/23 18:37:08