零基础入门到精通

百度robots.txt协议怎么写?如何才能禁止收录作用


数字营销人员和搜索引擎优化专业人士都应该知道搜索引擎索引的重要性,这正是他们尽力帮助各大搜索引擎正确抓取并索引其网站,并将时间和资源投入到页内和页外优化(如内容,链接,标签,元描述,图像优化,网站结构等)的原因。

但是,虽然不排除高级网站优化是搜索成功的基础,但忘记搜索引擎优化的技术部分可能是一个严重的错误。如果您从未听说过有关robots.txt,机器人标签,XML站点地图,微格式和X-Robot标签的信息,则可能会遇到麻烦。

不过,请不要惊慌。在本文中,我将解释如何使用和设置robots.txt标签。我也会提供几个实际的例子。开始吧!

什么是robots.txt?

robots.txt是一个文本文件,用于指示搜索引擎机器人(也称为抓取工具,机器人或蜘蛛)如何抓取和索引网站页面。理想情况下,robots.txt文件放置在您网站的顶级目录中,以便机器人可以立即访问其说明。

为了将命令传达给不同类型的搜索爬虫,robots.txt文件必须遵循机器人排除协议(REP)中的特定标准,该协议于1994年创建,然后在1996年,1997年和2005年大幅扩展。

纵观他们的历史,robots.txt文件已经逐渐改进,以支持特定的抓取工具指令,URI模式扩展,索引指令(也称为REP标签或机器人元标签)以及微格式rel =“nofollow”。

由于robots.txt文件为搜索漫游器提供了关于如何抓取或如何不抓取本网站或该部分网站的指导,因此了解如何使用和设置这些文件非常重要。如果robots.txt文件设置不正确,可能会导致多个索引错误。所以,每次你开始一个新的SEO活动时,请使用手动检查你的robots.txt文件。

不要忘记:如果一切正常,robots.txt文件将加快索引过程。

用robots.txt隐藏

robots.txt文件可用于从搜索中排除某些目录,类别和页面。为此,请使用“disallow”指令。

以下是一些您应该使用robots.txt文件隐藏的页面:

包含重复内容的网页

分页页面

动态产品和服务页面

帐户页面

管理页面

购物车

聊天

基本上,它看起来像这样:

robots文件

在上面的示例中,我指示避免对用户帐户,购物车和用户在搜索栏中查找产品或按价格排序时生成的多个动态页面的所有页面进行爬网和索引,等等。

但是,请不要忘记,任何robots.txt文件都可以在网上公开获得。要访问robots.txt文件,只需输入:

www.simcf.cc/robots.txt(替换自己的域名即可);

此可用性意味着您无法保护或隐藏其中的任何数据。此外,恶意机器人和恶意抓取工具可以利用robots.txt文件,将其用作详细地图来浏览最有价值的网页。

另外,请记住,robots.txt命令实际上是指令。这意味着即使您指示他们不要,搜索漫游器也可以抓取您的网站并将其编入索引。好消息是,大多数搜索引擎(如百度、360、Google、Bing、Yahoo和Yandex)都会遵守robots.txt指令。

robots.txt文件肯定有缺点。尽管如此,我强烈建议您将它们作为每个SEO活动的组成部分。各大搜索引擎承认并遵守robots.txt指令,并且在大多数情况下,让搜索引擎承担您的责任已经足够了。

如何使用Robots.txt

Robots.txt文件非常灵活,可以以多种方式使用。然而,他们的主要好处是可以让SEO专家一次性“允许”或“禁止”多个页面,而无需逐一访问每个页面的代码。

例如,您可以阻止来自内容的所有搜索抓取工具。喜欢这个:

用户代理: *

不允许: /

User-agent: *
Disallow: /
 

或隐藏您网站的目录结构和特定类别,如下所示:

用户代理: *

禁止:/ no-index /

User-agent: *
Disallow: /no-index/
 

从搜索中排除多个页面也很有用。只需解析您想要从搜索抓取工具中隐藏的网址。然后,在您的robots.txt中添加“disallow”命令,列出这些URL,并且,瞧! – 各大搜索引擎不再显示这些网页。

robots.txt协议

但更重要的是,robots.txt文件允许您优先考虑某些页面,类别,甚至是CSS和JS代码。看看下面的例子:

robots禁止规则

在这里,我们不允许使用WordPress页面和特定类别,但是允许使用wp-content文件,JS插件,CSS样式和博客。这种方法可以保证蜘蛛抓取并索引有用的代码和类别。

还有一件重要的事情:robots.txt文件是您的sitemap.xml文件的可能位置之一。它应放置在用户代理,禁止,允许和主机命令之后。喜欢这个:

注意:  您还可以将您的robots.txt文件手动添加到站长管理平台,并且如果您的目标是百度站长工具。这是一种更安全的方法,因为这样做可以保护您的内容免受竞争对手网站的网站管理员的影响。

尽管robots.txt结构和设置非常简单,但正确设置的文件可以制作或打破您的SEO活动。小心使用设置:您可以轻易“不允许”整个网站,然后等待流量和客户无济于事。

结论

搜索引擎优化不仅仅是关键字,链接和内容。SEO的技术部分也很重要。事实上,它可以为您的整个数字营销活动带来不同。因此,请尽快学习如何正确使用和设置robots.txt文件协议。我希望我在本文中描述的做法和建议能够指导您顺利完成这一过程。

版权声明

以上文章中所选用的图片及文字来源于网络以及用户投稿,版权归原作者所有,对此本站均没有商业用途,仅供学习与交流;本站不负任何责任! 由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用, 如果有侵权请立即联系QQ:823124280,我们立即下架或删除。