请输入您要查询的百科知识:

 

词条 deepweb
释义

基本解释

在文献中常见deepweb连写的形式

整个Web看似杂乱无章,但如果按其所蕴涵信息的“深度”可以划分为SurfaceWeb和DeepWeb两大部分.Surfaceweb是指通过超链接可以被传统搜索引擎索引到的页面的集合.DeepWeb是指Web中不能被传统的搜索引擎索引到的那部分内容.广义上来说,DeepW eb的内容主要包含4个方面:(1)通过填写表单形成对后台在线数据库的查询而得到的动态页面;(2)由于缺乏被指向的超链接而没有被搜索引擎索引到的页面,大约占整个比例的21.3%;(3)需要注册或其它限制才能访问的内容;(4)Web上可访问的非网页文件,比如图片文件、PDF和Word文档等.

而在实际中应用中,人们则更关注于DeepWeb中的第一部分内容.其原因不难理解.这部分内容对结构化数据的集成更有意义,可以采用的技术也更丰富.DeepWeb数据集成也主要是指对结构化信息的集成.我们同时把Web中可访问的在线数据库称为Web数据库或WDB.这些内容只有在被查询时才会由W eb服务器动态生成页面,把结果返回给访问者(图1),因此没有超链接指向这些页面,这是和那些可以被直接访问的静态页面的根本区别.随着Web相关技术的日益成熟和DeepWeb所蕴含信息量的快速增长,通过对web数据库的访问逐渐成为获取信息的主要手段,而对DeepWeb的研究也越来越受到人们的关注.

deepweb特征与发展现状

与SurfaceWeb相比,DeepWeb蕴藏了更加丰富,更加“专业”(专注于某一领域)的信息.在2000年7月,Brightplanet对DeepWeb做了一次较为全面的宏观统计,发布了Deepw eb的白皮书 (在该文中Brightplanet对DeepWeb的定义主要指的是Web数据库),指出整个Web上大约有43000~96000个Web数据库,并从宏观上对DeepWeb做了定量的调查统计,下面列出其中部分的调查结果:(1)DeepWeb蕴含的信息量是SurfaceWeb的

400~500倍.(2)对DeepW eb数据的访问量比SurfaceWeb要高出15%.(3)DeepWeb蕴含的信息量比SurfaceWeb的质量更高.

(4)Deep Web的增长速度要远大于SurfaceWeb.

(5)超过50%的DeepWeb的内容是特定于某个域的,即面向某个领域.

(6)整个DeepWeb覆盖了现实世界中的各个领域,比如商业、教育、政府等等.

(7)DeepW eb上95%的信息是可以公开访问的,即免费获取.

整个Web是开放的、不断变化的,有效地评估当前整个DeepWeb的规模,即当前DeepWeb上Web数据库的数量以及变化情况是十分重要的.

UIUC大学在2004年4月对整个DeepWeb做了一次较为准确的估算,推测整个Web上有307000个提供Web数据库的网站、450000个Web数据库,比Brightplanet在2000年估计的50000个数据库网站的数目增长了6倍多.

DeepWeb中的Web数据库不但数量众多,而且覆盖了现实世界的各个领域.一些专门的机构,像CompletePlanet和InvisibleWeb等,构建了DeepWeb目录,按现实世界的领域对DeepWeb的内容做了分类,主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分类.这只是宏观的分类,每个分类下面还有小的分类,比如科学可以继续分为社会科学与自然科学,而自然科学又可分为若干学科.在表1中可以看出,尽管这些网站对Web数据库进行了细致的分类,但所列出的Web数据库仅仅只是整个web数据库的很小的一个比例(即使最大的CompletePlanet也只有15.6%.因此从宏观上对Web数据库按现实世界的领域分类做一个定量的分析是十分迫切而且必要的工作.

对网站中所提供的查询接口提交查询来获得,图2是Amazon网站提供的查口.

每个查询接口支持在若干个属性上进行查询,比如要查询某一本图书,可以根据书名、作者、价格等.这些属性就构成了查询接口的模式(Schema)信息.查询接口模式的大小是指属性的数目.查询接口顾名思义是外部访问Web数据库的门户,是从Web数据库中获取数据的主要途径,因此在web数据库研究领域,对查询接口的模式信息的研究占有极其重要的地位.

对DeepWeb信息的访问是通过在查询接口上提交查询,这和对搜索引擎的访问在某种程度上来说是相似的,但DeepWeb数据和搜索引擎二者之间是有着很大区别的:

(1)搜索引擎搜索结果是网页,而Deepweb中的搜索结果主要是结构化的数据。

(2)Web数据库通常有复杂的接口,而搜索引擎的接口较为简单,一般是关键字搜索.

(3)搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性,Web数据库则是根据结果中对DeepWeb中信息的获取主要的途径是通过某个属性的值。

随便看

 

百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。

 

Copyright © 2004-2023 Cnenc.net All Rights Reserved
更新时间:2025/2/27 5:33:24