优化和验证 Robots.txt 的最佳方法

2021-09-02

优化和验证 Robots.txt 的最佳方法

与某些 SEO 信念相反,您通常需要的不仅仅是关键字和反向链接,以便搜索引擎开始对网站进行排名。如果您希望您的网站继续在搜索引擎结果页面 (SERP) 排名中攀升,那么控制搜索引擎可以看到的内容非常重要。robots.txt 协议可以帮助解决这个问题。

了解最佳 robots.txt 实践是确保您的网站排名更高的关键。与此相关的特定内部 SEO 策略将取决于您自己的网站,但这里有一些使用 robots.txt 时的最佳提示技巧,以确保您获得想要的结果。
什么是 Robots.txt
robots.txt 是一个机器人排除协议,这意味着它是一个小文本文件,也是一种抓取优化的手段。根据谷歌的说法,robots.txt 文件告诉搜索引擎爬虫可以或不能从您的网站请求哪些页面或文件。

“这是针对搜索引擎如何阅读您网站的说明。创建此文件是为了告诉爬虫您希望他们看到什么以及您不希望他们看到什么,以提高您的 SEO 性能。”

Robots.txt 有什么用?

robots.txt 文件可让您控制希望和不希望搜索引擎显示哪些页面,例如用户页面或自动生成的页面。如果网站没有此文件,搜索引擎将继续抓取整个网站。

为什么需要优化Robots.txt?

robots.txt 的目的不是完全锁定页面或内容,使搜索引擎无法看到。这是为了最大限度地提高他们的抓取预算的效率。他们的预算被分解为抓取速率限制和抓取需求。您是在告诉他们,他们不需要抓取非面向公众的页面。

爬网速率限制表示爬虫可以在给定网站上建立的连接数。这包括两次获取之间的时间。如果您的网站响应迅速,则您的抓取速度限制会更高,并且他们可以与机器人建立更多连接。根据需求抓取网站。

您正在使爬虫的工作更轻松。他们会在您的网站上找到更多热门内容并对其进行排名。当您的网站上有重复的页面时,这很有用。因为它们确实对 SEO 有害,所以您可以使用 robots.txt 告诉爬虫不要将它们编入索引。例如,这对于在其站点上具有打印机友好页面的网站是有益的。

如何修改您的 Robots.txt 内容

“大多数时候,你不想把这件事弄得一团糟。你也不会经常篡改它。触摸它的唯一原因是,如果您不希望您的机器人抓取您网站上的某些页面

” 。

打开纯文本编辑器,然后编写语法。识别被称为用户代理的爬虫:*。

因此,例如:用户代理:Googlebot。识别爬网程序后,您可以允许或禁止某些页面。然后这可以阻止任何特定的文件类型。这是一件非常简单的事情,您所要做的就是输入它,然后添加到 robots.txt 文件中。

验证机器人.txt

当您找到并修改您的 robots.txt 文件时,您必须对其进行测试以验证它是否正常工作。为此,您必须签署您的 Google 网站管理员帐户,然后导航以进行抓取。这将展开菜单,您将在那里找到测试仪。如果有任何问题,您可以在那里编辑您的代码。但是,在您将其复制到您的网站之前,它们不会完全改变。

Robots.txt 的最佳实践

您的 robots.txt 需要命名为 robots.txt,您才能找到并找到它。它必须在您网站的根文件夹中。任何人都可以看到这个文件,所有要做的就是输入您的 robots.txt 文件的名称和您的网站 URL。所以,不要用它来偷偷摸摸或欺骗,因为它是公共信息。

不要为特定的搜索引擎制定特定的规则。这样就不那么令人困惑了。您应该向 robots.txt 文件添加禁止语法,但它不会阻止它被索引,您必须使用 noindex 标记。爬虫非常先进,它们会像您一样查看您的网站。因此,如果您的网站使用 CSS 和 JS 来工作,则不应从 robots.txt 文件中阻止这些文件。

如果您希望立即识别此信息,则应立即将其添加到 Google,而不是等待网站被抓取。已被禁止的页面上的链接可被视为 nofollow。因此,除非它们在其他页面上,否则某些链接不会被编入索引。站点地图应放在此文件的底部。

实施这些 robots.txt 最佳实践应该可以帮助您的网站在搜索引擎中获得更好的排名,因为它可以使抓取工具的工作更轻松。

--- END ---