WordPress robots.txt:SEO最佳做法示例

“最佳实践”是什么样的?
搜索引擎不断改进他们对网络和索引内容进行爬网的方式。这意味着几年前的最佳做法不再起作用,甚至可能损害您的网站。

如今,最佳做法意味着尽可能少地依赖robots.txt文件。实际上,只有在您遇到复杂的技术难题(例如,具有多面导航的大型电子商务网站)或没有其他选择时,才真正需要在robots.txt文件中屏蔽网址。

通过robots.txt阻止URL是一种“暴力手段”,并且可能导致更多问题,甚至无法解决。

对于大多数WordPress网站,以下示例是最佳做法:

#此空间有意留为空白
#如果您想了解为什么我们的robots.txt看起来像这样,请阅读以下文章:https://yoa.st/robots-txt
用户代理: *
我们甚至在自己的robots.txt文件中使用了这种方法。

该代码的作用是什么?
用户代理:*指令指出,以下任何指令均适用于所有搜寻器。
因为我们没有提供任何进一步的说明,所以我们说“所有爬网程序都可以不受限制地自由爬网该网站”。
我们还为人类查看文件提供了一些信息(链接到此页面),以便他们了解文件为什么为“空”的原因。
如果您必须禁止网址
如果您想防止搜索引擎对WordPress网站的某些部分进行爬网或编制索引,通常最好通过添加meta robots标签或robots HTTP标头来做到这一点。

我们的元机器人标签最终指南介绍了如何以“正确的方式”管理抓取和编制索引,而我们的Yoast SEO插件提供了可帮助您在页面上实现这些标签的工具。

如果您的网站遇到无法通过meta robots标签或HTTP标头解决的抓取或编制索引问题,或者如果您出于其他原因需要阻止抓取工具的访问,则应阅读robots.txt的最终指南。

请注意,WordPress和Yoast SEO已经自动阻止对某些敏感文件和URL进行索引,例如WordPress管理区域(通过x-robots HTTP标头)。

为什么这是“极简主义”的最佳做法?
Robots.txt创建死胡同
在争夺搜索结果的可见性之前,搜索引擎需要发现,爬网和建立页面索引。如果您已通过robots.txt阻止了某些网址,则搜索引擎将无法再通过这些网页来发现其他网页。这可能意味着关键页面不会被发现。

Robots.txt拒绝链接其值
SEO的基本规则之一是来自其他页面的链接可能会影响您的性能。如果某个URL被阻止,不仅搜索引擎不会对其进行爬网,而且它们也可能不会将指向该URL的任何“链接值”分发给该网站的其他页面,也不会通过该URL分发给该网站的其他页面。

Google全面呈现您的网站
人们过去常常阻止对CSS和JavaScript文件的访问,以使搜索引擎专注于那些最重要的内容页面。

如今,Google会获取您所有的样式和JavaScript,并完全呈现您的页面。了解页面的布局和显示方式是评估质量的关键部分。因此,当您拒绝Google访问CSS或JavaScript文件时,Google根本不喜欢它。

以前禁止通过robots.txt阻止对wp-includes目录和插件目录的访问的最佳实践不再有效,这就是为什么我们与WordPress一起删除了4.0版中对wp-includes的默认禁止规则的原因。

许多WordPress主题还使用异步JavaScript请求(即所谓的AJAX)向网页添加内容。 WordPress过去默认情况下会阻止Google进行此操作,但我们已在WordPress 4.4中修复了此问题。

您(通常)不需要链接到您的站点地图
robots.txt标准支持将指向XML站点地图的链接添加到文件。这有助于搜索引擎发现您网站的位置和内容。

我们一直认为这是多余的;您应该已经通过将站点地图添加到Google Search Console和Bing网站管理员工具帐户中来访问分析和效果数据。如果这样做,则在robots.txt文件中不需要引用。

滚动至顶部