网站技术中心
最高人气浏览

浅析几大搜索引擎蜘蛛搜索技术的比较

点击率:5413 发布时间:2011-10-27

1、搜索引擎市场被证明有很高的商业价值,众多的国内厂商都在抢这个市场,包括搜狐,百度,雅虎中国,奇虎,中搜等等一大堆厂商。搜索引擎要战胜竞争对手,一个很重要的制高点就是宣布自己搜索了多少个网页,前不久搜狐不就号称搜索的页面已经超过了百度吗?这势必造成各个搜索引擎的“军备竞争”,互相攀比谁搜索的网页更多。造成的直接后果就是肆无忌惮的放爬虫来爬网站。

2、爬网页即要多,又要准,其实需要很高技术能力和很丰富的服务器资源。

举例来说,Google索引的JavaEye网页不过10万,因为他能够甄别内容相同的页面,能够甄别内容的等级,也能够准确定位有效资源,所以它不需要爬那么多网页,也不需要那么频繁的爬,就可以完成任务。但是百度索引了JavaEye40多万网页,其爬虫显然技术水平要逊Google一筹。由于它需要多爬三倍于Google的网页,所以他必须比Google爬的速度至少快三倍。

Google全球几十万台服务器,能用来做爬虫的服务器估计至少是百度的n倍,如果要爬同样多的页面,自然服务器越少,你就需要每台服务器爬的越快,所以百度爬虫经常一个IP地址放出来上百个爬虫来爬你的网站,但是Google从不对同一个网站同时放两个爬虫。这就说明了至少爬中文网站的服务器,百度的爬虫服务器比Google少了30倍以上,又由于百度要爬Google4倍的网页,所以百度每台服务器至少要以100倍于Google的速度爬网站,这样才能赶得上Google爬网页的效果。所以Google放一个爬虫,百度就得放100个爬虫。

至于国内那些比百度技术更烂的公司,当然必须放出比百度多很多倍的爬虫,才能达到同样的效果。这就是为什么越是好的搜索引擎,越不会对你的网站造成干扰,而越烂的公司其爬虫越流氓的原因了。