网站技术中心
最高人气浏览

通过理解搜索引擎蜘蛛以最大化网站收录率

点击率:2763 发布时间:2011-11-01

本文抛开网站权重和一些外部因素的基础上写的,在同一权重的情况下,通过理解搜索引擎(SE)蜘蛛的工作流程使网站收录率达到最大。

什么是网站收录率?

网站收录率= SE收录数 / 网站实际页面数

现在并没有一个在线工具能统计到一个网站到实际页面数,下面我提供二种方法去查询:

1、通过联系管理员检索数据库,比较准确,但需要对技术部的支持

2、使用XENU工具爬一遍

SE工作流程其实可以简单的理解成收录、排序、展现这三步,第一步就是收录,也是我这章重点想就明的,大家都知道,一个页面在被收录之前,一定会先有蜘蛛爬行,反之,没有蜘蛛爬行的记录,SE怎么可能收录这页面。网站是由很多页面,如果让SE去注意这些页面,这就是SEOER做的最重要的工作,没有之一,只有实现良好的收录,才会让排名实现的更简单。可以理解就是提高单一页面的"爆光率",可分成"站入爆光率"和"站外爆光率"。

在这之前我们先来理解一个SE蜘蛛的爬行策略,常见的有二种:深度优先和广度优先

1、 深度优先

深度优先指当蜘蛛发现一个链接时,它就会顺着这个链接指出的路一直向前爬行,直到前面再也没其他链接,这时就会返回第一个页面,然后会继续链接再一直往前爬行。

2、 广度优先

从seo角度讲链接广度优先的意思是讲的蜘蛛在一个页面发现多个链接的时候,不是跟着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

从理论上说,无论是深度优先还是广度优先,只要给蜘蛛足够的时间,都能爬完整个互联网。在实际工作中,没有什么东西是无限的,蜘蛛的带宽资源和蜘蛛的时间也是一样都是有限的,也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

我个人理解百度对新网站分配的蜘蛛第一阶段都是一样,如何利用好这一阶段的蜘蛛就是我们要解决的关键点,方法如下:

1、减少页与页之间的链接深度

减少的主要目标有:

首页到频道页的深度

频道页到首页到内容页的深度

普通页到上级页到首页的深度

内容相关度的深度

专题页的深度

解决办法:

为网站的页面增加更多入口

比较重要的页面或者专题,可以在首页或者频道页添加链接,加大其权重

利用好站内锚广本

网站地图减少页面链接深度

2、减少网站目录的深度

网站目录深度实际上就是URL的目录层次,做到网站形成扁平式,建议不要超过3级。

建议: 网站分为 首页-频道页-内容页 这三层,相关文章可以通过专题页来汇总起来,以降低目录深