回到2016年10月,我写了一篇关于你如何使用Python脚本,以确定是否页面已被谷歌在SERP中被索引。事实证明,谷歌的网站管理员趋势分析师Gary Illyes是不是太满意,这是一个由脚本所使用的技术,所以我不能赞同这种方法:
之后不久,肖恩Malseed和他的团队在格林兰SEO建基于在谷歌表类似的工具(像中其他InfiniteSuggest真棒工具),以及Google员工约翰·米勒表示了保留意见:
我怎么能知道哪些页面没有被谷歌索引,并做到这一点在没有打破谷歌的规则的方式? 谷歌没有说明是否一个页面在谷歌搜索控制台被索引,不会让我们凑搜索结果得到的答案,而不是热衷于间接地从一个未公开的API得到了答案。(这是肖恩Malseed的聪明的解决方案和解决办法刮。)让我们来探讨一些解决方案。
马克·埃德蒙森提供的R脚本的解决方案,做了以下工作:
它会验证你的谷歌Analytics帐户。
看起来,看看是否有你的网站的XML网站地图内找到的网页,但在谷歌Analytics(分析)有机谷歌搜索结果没有找到,从过去的30(或更多)天。
该方法假设,如果URL中没有分析发现谷歌有机搜索结果,那么它可能还没有被谷歌索引。
虽然我个人很喜欢脚本的解决方案,我知道很多人不。你并不需要弄清楚R键进行相关分析。您可以轻松地前往了谷歌分析,并做了类似的分析 – 或者,更容易,头部到谷歌Analytics(分析)查询浏览器,并使用这些设置运行。下载表作为TSV:
然后,您可以下载XML?本地网站地图,并打开到Excel。接下来,将其拖到Excel窗口,你会得到“导入XML”对话框。如果它要求你“打开文件时不应用样式表”,选择确定:
然后,选择打开文件“作为一个XML表”:
您可以删除无关列,仅保留“NS1:LOC”(或“LOC”)列:
然后,你只需要简单地做一个VLOOKUP或Excel匹配的其他形式,发现在网站地图中不存在在分析数据的URL。
我认为这是一个简单而巧妙的解决方案,虽然一个很好的起点,我担心它会不会准确地显示哪些页面被谷歌索引。这不是寻常的网页接收很少或没有通信,即使它们被索引。这可能是一个迹象,该页面未被索引,但它也可能只是表明该页面有一个标签问题,已变得无关紧要,是需要一些优化,以提高其知名度或根本不存在的XML网站地图。(或者,你可以使用一个爬行,而不是你的XML网站地图,使这些比较。)
服务器日志文件是关于你的网站数据的极好来源,往往是不可访问通过其他手段。其中的信息,许多作品可以从这些日志文件中得出一定的机器人是否访问你的网站。在我们的例子中,我们所关心的漫游器是Googlebot。
我们的分析服务器日志文件可以让我们确定的Googlebot是否曾经访问过我们的网站上某一页。如果Googlebot从未访问过某个网页的话,就不会被编入索引谷歌。我个人倾向于使用KNIME为了这个目的,用内置的Web日志读取器节点,但随意使用自己喜欢的解决方案。
确保验证Googlebot,不单纯依靠报告的用户代理。许多机器人会欺骗Googlebot用户代理,这可能会使你的发现。为了避免这种情况,我用一个简单的Python代码段内KNIME:
有关日志文件分析一个不错的指南,请查看由Builtvisible本指南。
如果这一切都有点多,我建议检查出的尖叫青蛙SEO日志文件分析器?- 或者,对于一个企业解决方案,Botify。
像谷歌分析解决方案,日志文件分析,并非万无一失。它可能会为Googlebot访问一个页面,但实际上并不包括在它的索引(),但它会帮助我们缩小我们的可能非索引的网页列表。
为了缩小我们的可能不是由谷歌索引尽可能的网页列表,我建议结合使用谷歌Analytics(分析)技术与日志文件分析以上方法捕获的数据。
一旦我们有我们的名单,我们可以做一些现场检查通过手动搜索谷歌为“信息:”这不会打乱谷歌。这是手动检查容易得多,因为我们已经能够显著缩小我们的名单。
由于谷歌没有提供的网页是否已编入索引的工具或数据,我们都不允许使用像我以前写的,我们必须依靠缩小我们的网址列表中的一个自动化的解决方案,可不被索引。
我们可以通过检查我们的分析数据,这是在我们的网站页面,但没有收到谷歌的有机交通做到这一点,并通过查看服务器日志文件。从这里,我们可以手工抽查了缩短的URL列表。
这不是一个理想的解决方案,但它能够完成任务。我希望在未来,谷歌将提供评估哪些页已经被索引,哪些没有更好的手段。
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。