WordPress robots.txt：SEO最佳做法示例-顶级复刻表

“最佳实践”是什么样的？
搜索引擎不断改进他们对网络和索引内容进行爬网的方式。这意味着几年前的最佳做法不再起作用，甚至可能损害您的网站。

如今，最佳做法意味着尽可能少地依赖robots.txt文件。实际上，只有在您遇到复杂的技术难题（例如，具有多面导航的大型电子商务网站）或没有其他选择时，才真正需要在robots.txt文件中屏蔽网址。

通过robots.txt阻止URL是一种“暴力手段”，并且可能导致更多问题，甚至无法解决。

对于大多数WordPress网站，以下示例是最佳做法：

＃此空间有意留为空白
＃如果您想了解为什么我们的robots.txt看起来像这样，请阅读以下文章：https://yoa.st/robots-txt
用户代理： *
我们甚至在自己的robots.txt文件中使用了这种方法。

该代码的作用是什么？
用户代理：*指令指出，以下任何指令均适用于所有搜寻器。
因为我们没有提供任何进一步的说明，所以我们说“所有爬网程序都可以不受限制地自由爬网该网站”。
我们还为人类查看文件提供了一些信息（链接到此页面），以便他们了解文件为什么为“空”的原因。
如果您必须禁止网址
如果您想防止搜索引擎对WordPress网站的某些部分进行爬网或编制索引，通常最好通过添加meta robots标签或robots HTTP标头来做到这一点。

我们的元机器人标签最终指南介绍了如何以“正确的方式”管理抓取和编制索引，而我们的Yoast SEO插件提供了可帮助您在页面上实现这些标签的工具。

如果您的网站遇到无法通过meta robots标签或HTTP标头解决的抓取或编制索引问题，或者如果您出于其他原因需要阻止抓取工具的访问，则应阅读robots.txt的最终指南。

请注意，WordPress和Yoast SEO已经自动阻止对某些敏感文件和URL进行索引，例如WordPress管理区域（通过x-robots HTTP标头）。

为什么这是“极简主义”的最佳做法？
Robots.txt创建死胡同
在争夺搜索结果的可见性之前，搜索引擎需要发现，爬网和建立页面索引。如果您已通过robots.txt阻止了某些网址，则搜索引擎将无法再通过这些网页来发现其他网页。这可能意味着关键页面不会被发现。

Robots.txt拒绝链接其值
SEO的基本规则之一是来自其他页面的链接可能会影响您的性能。如果某个URL被阻止，不仅搜索引擎不会对其进行爬网，而且它们也可能不会将指向该URL的任何“链接值”分发给该网站的其他页面，也不会通过该URL分发给该网站的其他页面。

Google全面呈现您的网站
人们过去常常阻止对CSS和JavaScript文件的访问，以使搜索引擎专注于那些最重要的内容页面。

如今，Google会获取您所有的样式和JavaScript，并完全呈现您的页面。了解页面的布局和显示方式是评估质量的关键部分。因此，当您拒绝Google访问CSS或JavaScript文件时，Google根本不喜欢它。

以前禁止通过robots.txt阻止对wp-includes目录和插件目录的访问的最佳实践不再有效，这就是为什么我们与WordPress一起删除了4.0版中对wp-includes的默认禁止规则的原因。

许多WordPress主题还使用异步JavaScript请求（即所谓的AJAX）向网页添加内容。 WordPress过去默认情况下会阻止Google进行此操作，但我们已在WordPress 4.4中修复了此问题。

您（通常）不需要链接到您的站点地图
robots.txt标准支持将指向XML站点地图的链接添加到文件。这有助于搜索引擎发现您网站的位置和内容。

我们一直认为这是多余的；您应该已经通过将站点地图添加到Google Search Console和Bing网站管理员工具帐户中来访问分析和效果数据。如果这样做，则在robots.txt文件中不需要引用。