最新文章
·IT产业须发挥自主创新...
·做网站最贵的是什么?...
·Internet宽频新时代,...
·百度登陆纳市在即 凭...
·“双核”笔记本激情“...
·圣诞佳节讯宜绣像“溜...
·IE十岁生日回首:Wind...
·IT“榨汁机”里的逝水...
·2006年8月20日 媒体...
·福建省首届大型软件高...
·光芒再创日本P2P直播...
·家电渠道巨头促手机新...
相关文章
·[转自安全焦点]首席信...
·微软键鼠纪念版光学银...
·杀毒软件携手《防火墙...
·顺风:《顺风新博客论...
·干,这个流氓有点猛!...
·鲍尔默誓“活埋”施密...
·爱多莫名进军IT
·网游网吧每天断网四小...
·国美电器∶推荐我买的...
·游戏杂志的困惑
·我也做记者了
·IT人南游记(13)
推荐文章
· Google:买的没有卖...
·一块月饼,企业文化,...
·中关村卖场再次大变动...
·互联网第二次浪潮的三...
·借机生板:渠道狂吃联...
·赛我网用户数破百万 ...
·HISHOP开店生意经——...
·TCL 集团承认TCL移动...
·5G评论:中移动对SP动...
·强强联合携手助力06动...
·CEO的“势能”在组织...
·【吃饭还送话费】-请...
  您现在的位置: 休闲居 >> IT时代 >> IT风云 >> 

深深网络深似海——搜索引擎之外的网络世界
作者:平文胜  人气: 【字体:大 中 小】
  发布时间:2006-08-24 16:44:26

内容摘要:搜索引擎所知道的网络只是整个网络世界的1/500,广大的不可见的网络(Deep Web / Invisible Web)是什么?为什么会存在?如何去查找?以及搜索引擎在这方面的技术进展?

关键词:Deep Web, Invisible Web, Search Engine, Dynamic Web Content,搜索引擎,动态网站休 闲 居 编辑

 

1) 引言

 

可以把互联网想象成一个信息的海洋,为了帮助我们在这个海洋中找到自己需要的信息,就有了分类目录和搜索引擎这样的服务,前者采用人工分类的方法建立目录,提供用户查询,代表是Yahoo.com,后者使用程序软件(搜索机器人)在网络上抓取页面,提供查询,现在最著名的是Google.com。搜索引擎能查询到的信息远远比分类目录丰富,加上搜索技术的发展,使得查询结果也越来越准确,这就是Google.com及搜索技术现在这么热门的根本原因。

 

到目前,GOOGLE中搜索的全部网页数已经超过了30亿,但是和整个互联网的丰富信息相比,这还不到1%,那么剩下的在哪里呢?为什么搜索引擎不检索呢?如何才能查询这些信息呢?……

 

2) 什么是INVISIBLE WEB / DEEP WEB

 

还是用这样的比喻:互联网是一个信息的海洋,那么搜索引擎抓取只是这个海洋的表面,而在信息海洋的深处,存在巨大数量的内容,搜索引擎无法启及,这些内容叫着“DEEP WEB”,或者“INVISIBLE WEB”,可以翻译成“搜索引擎不可见的网络”(为方便行文,下面仍直接使用“INVISIBLE WEB”)。

 

举个实际的例子,我们要查询最新的“火车时刻表”,通过搜索引擎我们可以找到一些提供“火车时刻表”的站点,如http://www.he183.com/lieche/,但是真正要知道具体车次的详细情况,我们要到这个站点输入车次进行查询。在这里,这个站点里的信息虽然我们人类可以通过查询得到自己需要的信息,但是对于搜索引擎则无法抓取,这些内容,就叫着“INVISIBLE WEB”。

 

根据Bright Planet公司(http://www.brightplanet.com/)在2000年底进行的一次研究(http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp )表明,搜索引擎无法抓取的网络内容是其可以抓取的500倍。尽管这几年搜索引擎技术突飞猛进,但是“INVISIBLE WEB”的内容也在以更快的速度增长。同时Bright Planet公司的研究表明,这些“INVISIBLE WEB”的内容95%都是可以通过互联网公开访问的(无须付费和注册),只是搜索引擎不能抓取,或者抓取了也无法提供查询。(这也解释了为什么“分类目录站点”仍然有存在的必要,如百度推出的生活服务目录http://www.baidu.com/life/)

 

3) 存在INVISIBLE WEB的原因

 

现在你应该对“INVISIBLE WEB”有了一点初步的印象,那么为什么搜索引擎不去抓取这些公开的信息,提供给大家查询呢?

 

有两类原因:一是因为技术原因搜索引擎无法抓取;二是搜索引擎可以抓取,但是因为其他选择不去抓取。下面逐一分析:

 

①     因为技术原因搜索引擎无法抓取:

我们知道搜索引擎使用搜索机器人(Spiders)通过链接在网络上抓取内容,但是当它遇到一个需要“输入内容”或者“在一些选项中进行选择”才能访问的网页时,它就变得无能为力了,因为“搜索机器人”不会思想。

 

搜索机器人的这个不足导致有两类站点它无法抓取。

·一种是对某个数据库的查询,由于结果页面都是在“输入内容”或者“选项”的基础上动态生成的,对于这类站点可见得只有那些静态的页面和查询的首页,其他都是不可见的;

 

·另外一种情况是需要用户名和密码登录才能访问的站点,搜索机器人无法“输入内容”,所以它没办法访问。现在很多站点都有全部或者部分内容需要登录才能阅读,这些内容都属于“INVISIBLE WEB”。

 

②     搜索引擎可以抓取,但是因为其他选择不去抓取:

除了搜索引擎无法抓取的内容外,还有许多内容它可以抓取,但是因为下面这些原因而选择不去抓取:

·文件格式问题:搜索引擎通过“搜索机器人”抓取内容是为了以后让用户可以查询到这些内容,但是很多文件格式,搜索引擎抓取后无法识别,也更无法被用户查询到。例如,如果一个站点全部是图片,搜索引擎抓取也无法识别其中的信息内容,它就选择放弃抓取。现在搜索引擎除了网页基本格式HTML和TXT外,能识别的其他文件格式越来越多,如PDF、WORD、EXCEL、POWERPOINT,但是还是有很多其他文件格式无法识别。

 

·使用动态脚本语言,带“?”的页面:越来越多的站点采用脚本语言(如ASP、PHP、JSP、PERL等)调用数据库的方式动态生成,并通过一些带“?”的链接访问数据库。(这个和前面谈到的“查询数据库”站点有一定的关系。)

对于这种带“?”的页面,搜索引擎可以抓取,但是一般情况下选择不去抓取,这是为了避免一种叫“搜索机器人陷阱(spider traps)”的脚本错误,这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费时间。国内的百度现在支持一些带“?”的脚本页面,但是这样做是暂时的,有很大风险,一方面这样的页面常常不稳定,用户最后查询得经常是“错误”或者和原来不同的内容,影响搜索质量;另外,也会有碰到“搜索机器人陷阱”的可能。

 

正是由于上面的这些原因,所以存在“INVISIBLE WEB”,而且随着脚本技术的普遍采用,“INVISIBLE WEB”的范围越来越大。

 

4) 如何查找INVISIBLE WEB

我们知道存在大量的“INVISIBLE WEB”,而且由于这些内容常常主题更专一,其信息的质量也非常高。那么有没有办法查找相关信息呢?这就要利用一些“INVISIBLE WEB”的分类目录和专门的工具,下面列出部分知名的站点:

·Librarians' Index to the Internet   http://www.lii.org/

·Resource Discovery Network     http://www.rdn.ac.uk/

·The Invisible Web              http://www.invisibleweb.com/

·Complete Planet                http://www.completeplanet.com/

·Invisible-Web.net               http://www.invisible-Web.net/

 

5) 搜索引擎在“INVISIBLE WEB”的进展

除了“INVISIBLE WEB”,在搜索引擎可以抓取的网页中,它们目前也只抓取了大约35%左右(2003年初数据),也就是说,搜索引擎目前的主要任务仍然是将可以检索的部分尽快检索,所以对“INVISIBLE WEB”关注不多,一定的进展主要集中:

·尽量识别各种文件格式,如GOOGLE现在支持的PDF、WORD、EXCEL、POWERPOINT;

·建立针对“INVISIBLE WEB”的数据库查询站点的分类目录,如上文提到的百度生活指南http://www.baidu.com/life/。

 

参考资料:

1)  http://websearch.about.com/library/weekly/aa061203a.htm

2)  http://www.brightplanet.com/deepcontent/tutorials/DeepWeb/index.asp

3)  http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.html

4) http://websearch.about.com/library/weekly/aa061903a.htm

 

 

=================================================================================

时代营销网(http://www.emarketer.cn/)

E书时空(http://www.eshunet.com/)

如需转载,请事先联系!

≡ 查看、发表评论 ≡