词条 | ShopBot |
释义 | 基于结构化或半结构化的网页信息抽取系统开发者:R. B. Doorenbos, O. Etzioni, D. S. Weld (1996/1997)[17,18]。 ShopBot 是比价代理系统,专门从网上卖家的网站上抽取信息,因此,比其他系统的局限性要大。其算法主要针对以表单形式提供查询的页面,而且返回的搜索结果是以表格形式显示的产品信息页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式学习。 ShopBot的运行分两个阶段:离线学习阶段和在线比价阶段。在学习阶段,系统分析每个购物网站,获得其符号化描述,然后在比价阶段,利用获得的符号化描述,从网站上抽取信息,找到用户指定的产品的最低价格。 在学习阶段,系统利用简单的启发式方法找到正确的检索表单,学习如何向该表单发送查询请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部等三部分。头尾两部分在所有的结果页面中都是一致的,而主体则包含了想要的产品信息。结果页面的格式是通过三个步骤判定的: 第1 步:获取“找不到产品”的失败页面。用不存在的词(如“xldccxx-no-product”)作为关键字查询数据库,然后分析返回的页面。 第2 步:找到头尾部分。用可能存在的产品名称去查询数据库,通过分析返回的页面找到头尾部分。 第3 步:判定包含产品信息的主体格式。首先用HTML 标记和字串对可能的产品信息摘要进行定义和表示。 网页主体被切分成“逻辑行”,代表“垂直空格分隔”(vertical-space-delimited)的文本。学习程序用逻辑行比较不同的摘要形式,找到最佳匹配。这样可以找到产品的描述格式,但是不能归纳出信息栏的名称。最关键的价格信息是用手工编码的方法获取的。 |
随便看 |
|
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。