零基础入门到精通

【技术贴】百度蜘蛛抓取频次优化的完整指南


抓取频次更像是一个SEO概念,在大多数情况下站长并不关心百度蜘蛛的抓取频次,因为抓取频次对于中小企业网站来说几乎没有任何影响。

虽然大多数网站管理员不用为抓取频次而担心,但是,如果运行的是大型网站,则抓取频次是我们可以(而且应该)优化的SEO因素。

当然,随着SEO的发展,抓取频次和排名之间的关系并不简单,爬行本身并不是排名因素,但从某种角度来说,抓取频次对搜索引擎优化有着间接影响因素(这也是蜘蛛池流行的原因)。

在本指南中,我将讲解相关的抓取概念,搜索引擎如何将抓取频次分配给网站的机制,以及如何充分利用抓取频次来最大限度地提高网站排名和有机流量的技巧。

内容

网络蜘蛛的好与坏

网络蜘蛛,爬虫或机器人是持续“访问”并抓取网页以收集某些信息的计算机程序。

根据抓取的目的,可以区分以下类型的蜘蛛:

搜索引擎蜘蛛;

Web服务的蜘蛛;

黑客蜘蛛;

搜索引擎蜘蛛由百度,Google或360等搜索引擎管理,这种蜘蛛可以对互联网上所有的页面进行爬行(前提是可发现),并将它们提供给搜索引擎的索引库。

诸如SEO工具,购物,旅行和优惠券网站等许多网络服务都有自己的网络索引和蜘蛛,例如,WebMeUp有一个名为Blexbot的蜘蛛,Blexbot每天可以抓取上百亿个页面来收集反向链接数据,并将该数据提供给其链接索引(在SEO SpyGlass中使用的链接索引)。

黑客也喜欢培育蜘蛛,他们使用蜘蛛来测试各种网站的漏洞,一旦发现漏洞,他们可能会尝试访问您的网站或服务器。

你可能会听到人们谈论好蜘蛛与坏蜘蛛,我通过这种方式来区分它们:任何旨在以非法目的收集信息的蜘蛛都是不好的,其余的都很好。

大多数蜘蛛通过用户代理字符串的帮助来标识自己,并提供可以更多地了解蜘蛛的URL:

服务器日志

 

在本文中,我将重点讨论搜索引擎蜘蛛以及他们如何抓取网站。

了解抓取频次

抓取频次是搜索引擎蜘蛛在特定时间段内击中网站的次数,例如,百度通常每月会在我的网站上点击1000次,我可以说1K就是百度的每月抓取频次,请注意,这些爬虫的数量和频率没有普遍限制;。

为什么抓取频次很重要?

从逻辑上讲,您应该关注抓取频次,因为您希望百度尽可能多地发现网站的重要网页,您还希望它能够快速在您的网站上找到新内容,抓取频次越大,这种情况会越快发生。

确定爬网频次

您可以在百度网站管理员工具中了解您网站的抓取频次,比方说,您需要确定您的百度抓取频次,登录到您的百度站长帐户并转到数据监控 – >抓取频次,在这里,您会看到每天的抓取频次。

从上面的报告中,我可以看到平均百度每天会抓取我网站30次左右,从中可以看出,我的每月爬行频次是 30* 30 = 900。

当然,这个数字很容易发生变化和波动,但是,它会为您提供一个可靠的想法,即您可以在特定时间段内抓取您网站的多少页面。

如果您需要更详细地查看各个页面的抓取统计信息,则必须分析服务器日志,日志文件的位置取决于服务器配置。

如果您不确定如何访问服务器日志,请向系统管理员或托管服务提供商寻求帮助。

原始日志文件很难阅读和分析,要理解这些,你需要绝对级别的正则表达式技巧或者专门的工具,我更喜欢使用光年日志分析工具来进行分析。

如何分配抓取频次?

随着搜索引擎优化,我们不完全知道搜索引擎如何形成网站的爬行频次,所有博主对网络的内容进行整理得到搜索引擎利用以下两个因素来确定爬网频次:

受欢迎程度 – 更受欢迎的网页会更频繁地抓取;

陈旧 –百度不会让有关的网页的信息过时,对于网站管理员,这意味着如果网页内容经常更新,百度会尝试更频繁地抓取网页。

假设一个网站的抓取频次与反向链接的数量以及该网站在百度眼中的重要性成正比 – 百度希望确保最重要的网页仍然是最新的指数。

内部链接呢?您是否可以通过指向更多内部链接来增加特定页面的抓取速度?

为了回答这些问题,我决定检查内部链接和外部链接之间的关联以及抓取统计信息,我收集了11个网站的数据并进行了简单的分析,简而言之,这就是我所做的。

我为将要分析的11个站点创建了项目,我计算了指向这些网站每个网页的内部链接的数量,接下来,我运行了SEO Spyglass并为相同的11个站点创建了项目,在每个项目中,我检查了统计信息并复制了带有指向每个页面的外部链接数的锚URL。

然后,我分析了服务器日志中的抓取统计信息,以了解百度每次访问每个网页的频率。最后,我将所有这些数据放入电子表格中,并计算内部链接和抓取预算以及外部链接和抓取预算之间的关联。

我发现了一件非常有趣的事 以下是我分析的其中一个网站的示例电子表格:

百度蜘蛛抓取分析

我的数据集证明蜘蛛访问次数和外部链接数量之间有很强的相关性(0,978),同时,蜘蛛命中和内部链接之间的相关性被证明是非常弱的(0,154),这表明反向链接比网站链接更重要。

这是否意味着提高抓取频次的唯一方法是构建链接并发布新内容?如果我们正在讨论整个网站的朱雀频次,我会说是:增加链接并经常更新网站,并且网站的抓取频次将按比例增长。

但是,当我们采取单独的页面,它将变得更有趣,正如你将会在下面的介绍中看到的那样,你甚至可能在没有意识到的情况下浪费大量的抓取频次。通过巧妙地管理频次,您通常可以将单个网页的抓取次数加倍 – 但它仍然会与每个网页的反向链接数成比例。

蜘蛛迷宫

如何充分利用抓取频次

现在,我们已经想通了,爬行很重要,是不是花费更多的时间来管理抓取频次?

您应该(或不应该)做很多事情来让搜索蜘蛛更多地消耗更多的网站页面,以下是最大化抓取频次功能的操作列表:

1.确保重要页面可被抓取,并且如果在搜索中找到的内容不提供价值,则会被阻止。

.htaccess和robots.txt不应该阻止网站的重要页面,机器人应该能够访问CSS和Javascript文件,同时,您应该阻止不想在搜索中显示的内容,阻止网站的“正在建设中”的区域和动态生成的网址等。

请记住,搜索引擎蜘蛛并不总是遵守robots.txt中包含的说明,你有没有在百度搜索结果中看过这样的片段?

Robots.txt并不保证网页不会显示在搜索结果中:百度仍然可以根据外部信息(如传入链接)决定它是相关的,如果您希望显式阻止某个页面被编入索引,则应该使用noindex漫游器元标记或X-Robots-Tag HTTP标题,在这种情况下,您不应该在robots.txt中禁止该页面,因为必须抓取该页面才能看到并遵守该标记。


2.避免长时间重定向链

如果网站上的连续301和302重定向数量不合理,则搜索蜘蛛将在某个时刻停止跟踪重定向,并且目标网页可能无法抓取,更重要的是,每个重定向的URL都会浪费您的抓取频次的“单元”,确保连续使用重定向不超过两次,并且只有在绝对必要时才使用重定向。

3.管理网址参数

有些内容管理系统会生成大量动态网址,实际上会导致同一页面,默认情况下,搜索引擎机器人会将这些URL视为单独的页面; 因此可能会浪费爬网频次,又可能会滋生内容重复问题。

4.查找并修复HTTP错误

百度抓取的任何网址(包括CSS和Java脚本)都会占用一个抓取频次单位,你不想在404或503页上浪费它,是吗?花一点时间来测试网站是否有任何损坏的链接或服务器错误,并尽快修复这些错误。

5.利用RSS

从我观察到的情况来看,RSS feed是百度蜘蛛访问量最高的页面之一,如果网站上的某个部分经常更新(博客,精选产品页面和新到达部分),请确保为其创建RSS源,请记住保持RSS源免受非规范,从索引或404页面被阻止。

6.保持网站地图整洁和最新

XML站点地图有助于提升爬行频次,他们会告诉搜索引擎关于网站内容的组织结构,并让搜索机器人更快地发现新内容,XML站点地图应定期更新并免于垃圾(4xx页面,非规范页面,重定向到其他页面的URL以及阻止索引的页面)。

7.管理网站结构和内部链接

虽然内部链接与抓取频次没有直接关系,但网站结构仍然是使搜索漫游器可发现内容的重要因素,逻辑树状网站的结构具有许多优点 – 例如用户体验以及访问者在网站上花费的时间 – 而改进的爬行绝对是其中之一。

一般来说,保持网站的重要区域距离任何页面不超过3次点击是最好的,在网站菜单或页脚中包含最重要的页面和类别,对于更大的网站,例如博客和电子商务网站,包含相关帖子/产品以及特色帖子/产品的版块可以将着陆页放在那里 – 对于用户和搜索引擎机器人都很有帮助。

正如你所看到的,搜索引擎优化并不全是关于’有价值的内容’和’高质量的链接’,当网站的前景看起来很精致时,可能是时候到地下室去做一些蜘蛛狩猎了 – 它肯定会在改善网站搜索性能方面创造奇迹。

版权声明

以上文章中所选用的图片及文字来源于网络以及用户投稿,版权归原作者所有,对此本站均没有商业用途,仅供学习与交流;本站不负任何责任! 由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用, 如果有侵权请立即联系QQ:823124280,我们立即下架或删除。