许多人写了关于优化爬预算。是个好主意?- 保持谷歌专注于网站上的正确的东西,并防止不必要的抓取错误的东西(或爬行?曲儿1000次以上方式略有不同)。
使用谷歌搜索控制台(前身为网站管理员工具)来告诉?谷歌该网址?参数忽略。如果“一”参数对页面的内容没有任何影响,你可以告诉谷歌忽略“了”参数。这表明像我的页面的网址。HTML?一个= foo和我的空间。HTML?一棒=应考虑?在同一个页面,从而让谷歌知道,它不具有爬行?每一个版本 – 电子。G。, 我的页面。HTML?A = X, ?A = Y, ?一个= Z – 即认定。
使用规范的标签实现同样的事情。在我的空间页面。HTML?A = FOO可以说,规范网址?该页面只是我的空间。HTML。谷歌可能会很慢学习这个(几天到几周) – 但?一旦这样做,?一般会停止或减少?非规范变体的爬行。
智能使用nofollow的的?标签和机器人。TXT规则。不要让谷歌抓取东西,它不应该。
那么,如何想起了一个爬预算?现在,谷歌正在执行页面上的所有JavaScript和做这些AJAX更新,以获得全部内容?
可能有许多要考虑相对于新的文件类型的新的问题需要考虑,还是老问题。本文重点介绍那些只有一个:JSON文件。
AJAX调用常?一个同修 。JSON请求得到将被动态插入到页面数据。这意味着,如果我的空间。HTML包括我的空间。JSON作为数据资源,你将开始看到Googlebot的这些请求 。JSON文件在您的网络日志。
根据您如何JSON?资源请求被形成,这也创造了很多重复的网址中,或网址?变化,你不一定要访问谷歌。例如,为了我的页面的请求。HTML?一个= FOO可能导致对我的页面的请求。JSON?一个= FOO。正如你可能不考虑参数 ?一个= FOO待提供内容的不同弗罗马=巴,我的空间的请求。JSON?A = foo和 ?A =栏可能会返回同样的事情。
如果你使用JSONP,JSON的常见变异,网址?通常有添加到每一个要求两个参数,回调_。这可能取决于库中的一个用来启动改变 。JSON请求,但是这些参数被特别设计成具有唯一值,他们每次使用时; 例如,你可以看到日期与时间被嵌入到回调的一个jQuery库生成此示例中的值:
?回调= jQuery214016598502290435135_1437264000022&_ = 14359.68亿
不幸的是,并非所有的上述爬行控制选项可用于JSON文件。?您可以阻止*。JSON或特定 。json?在机器人路径。TXT,但如果你需要谷歌看到包含在JSON内容?文件,你不想阻止它。你不能把一个规范成JSON?文件,也不能使用索引标记。JSON文件数据。?
所以,在很多情况下,你必须依靠谷歌告诉忽略具体参数。
测试我们已经完成的显示?两个有趣的事情:
如果你依赖于谷歌搜索控制台表面的所有常用参数找到您的网站,它可能不是这些表面。?它没有给我们?(虽然你可能有不同的体验)。也许?谷歌并没有浮出水面他们为我们,因为我们已经确定,谷歌只是没有得到解决,以确定这些又是那么很多其他参数。但是,你永远可以在列表中手动添加这些参数,然后告诉谷歌忽略他们。我们认为可能性,谷歌知道这些特殊的参数,因为他们是如此?通过Web常见。我们想,或许他们不是在我们的网站上常见的参数列表,因为谷歌已默认忽略它们,悄无声息。但是,我们观察到谷歌抓取单个页面超过2000次,10天的五个参数的多种组合。这五个参数包括三项,谷歌已经告知忽略之前几个月,而这两个JSONP?其中谷歌尚未告知忽略的参数(回调_)。
一旦我们增加了“回调”和“_”到的参数列表谷歌应该忽略的抓取速度 。JSON文件大幅下降。
如果你的 。JSON调用并不需要沿着全部通过参数包含页面被调用,不把它们传递。
如果你没有使用JSONP,不。许多网站用它来解决跨站点脚本安全警告?(它是一个有些冒险在那个)。如果一个网站想要有网站www页面。域。COM调用数据服务在XXX提供JSON数据。域。COM或www。otherdomain。COM,被认为是一个跨站点脚本安全问题,许多浏览器将与警告消息抱怨或者干脆不答应。JSONP是解决的办法。我们意识到,我们并不需要JSONP,因为在WWW所有页面。团购。对于JSON COM提出的要求?资源也是在WWW。团购。COM。普通的旧JSON?会为我们做一样好。
如果您正在使用JSONP,确保参数“回调”和“_”在你的参数忽略列表。
检查你的日志经常上的网址等参数,谷歌抓取。如果他们没有必要为一个页面来获得正确的内容,阻止他们。这个建议现在包括专门检查 。JSON请求,因为礼服您可能使用定期页面参数不会工作 。JSON请求。
并请让我知道,还有什么其他问题,你在你的网站与谷歌执行JavaScript看到做?
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。