详解spider爬行抓取策略

2017-08-07

我们在做网站优化的时候,SEOer们常常会关注网站的spider的爬行日志,我们会发现spider爬行网站的次数时多时少,那么spider爬行抓取的策略是什么呢?下面担路网小编简单为大家介绍一下spider爬行抓取策略。

spider眼中,互联网的网页主要可以分成四类:已抓取的页面、待抓取的页面、可抓取的页面、暗网中的页面。已抓取的页面即spider已经抓取的页面。待抓取的页面:已经在spider要抓取的队列中,只是还没抓。可抓取的页面:就是通过互联网现有的链接关系可以找到这些页面,增量型spider随着抓取的深入能发现这些页面。暗网中的页面:通过现有的链接还是没办法找到的页面。

spider从一个入口进去开始抓取时,这个页面有很多的导出链接,spider会选择其中一个链接进去抓取,进去之后又有很多导出链接。spider抓取的方式主要有两种:深度优先策略、广度优先策略。深度优先就是沿着一条路径走下去,直到无路可走。广度优先就是一个页面上有多个导出链接,先顺着这些链接把链接到的页面都抓过去,然后再抓链接到的页面上的导出链接所到的页面。

理论上只要时间够,spider都能抓完所有的页面,但是搜索引擎的资源也是有限的,它不可能无限制的抓取下去,搜索引擎一般会采用深度和广度策略想结合的方式。一般情况下,网站的权重越高,spider抓取的频率就越高,抓取的内容也就越多。

以上两种策略都是单纯站在spider抓取的角度上来看的,实际过程中影响spider抓取的较大的因素是:重要页面优先抓取策略以及大站优先抓取。重要页面的重要程度主要是由该页面的导入链接的数量以及质量决定的。而所谓大站就是指在搜索引擎眼中,是一个有着良好的用户体验度、稳定的服务器、丰富的内容的网站。

总的来说,一个网站的导入链接越多,导入链接所在的页面权重越高,其被抓取的可能性也就越高,所以SEOer们在做好网站内部优化的同时,要做好高质量的外链的工作。

担路云系统-D云系统

公司地址: 上海松江九亭九杜路349号417/418/419

友情链接:企信指数    担路云系统