今年早些时候,谷歌的加里Illyes指出,30X重定向(301,302,等。)不要导致的PaGeRank的损失或稀释。?你可以想像,许多SEO都招呼这种说法持怀疑态度。
在最近的网站管理员中心办公时间环聊,我问谷歌的约翰·米勒是否也许是怀疑?是因为当上市公司增发?迁移过程中的知名度经验损失,他们可能没有意识到,影响排名的所有信号都没有传递到新网页,于是他们认为?PageRank的丢失。
穆勒的?回复:
是啊,我的意思是,你在你的网站上做了较大的变化随时?- ?如果您重定向了很多网址,如果你去从一个域到另一个,如果你改变你的网站结构?-?那么所有的,它需要时间的事情安顿下来。因此,我们可以遵循很快,我们绝对可以向前有信号,但是,这并不意味着它会从一开始发生在下一。
在迁移过程中,Googlebot需要来收集日志中,映射整理大量的数据和内部更新,排名可以在此过程中波动。但除此之外,?什么时候?在Googlebot访问剧?在迁移过程中在排名波动的基本组成部分,并且可以涉及“URL调度”爬行预算的一个关键组成部分。
URL调度实质上是“是什么的Googlebot想参观(网址),以及多久?“?主机负载,在另一方面,是根据各地“我们可以从一个IP /主机GOOGLEBOT访问,根据容量和服务器资源?“总之,这些构成了”爬行预算“?一个IP或主机。这两个仍?无论在迁移。
在一份10页的小册子,网站,你可能不会看到一个站点迁移过程中的知名度任何损失。但是,如果你的网站是什么,例如,电子商务或新闻网站有?几万,几十万,?或者更多?网址? 或者,如果你归并什么几个站点到一个相同的IP主机上?
对于一切?要全面通过,这一切必须开始为最低限度至少Googlebot的一个完整的网站抓取。它甚至可能需要?几个完整的网站抓取,Googlebot的理解更多关于URL – 以及如何一切都适合和链接站点中的一起内部 – 与到新迁移的网站随后的每次访问。
在较大的站点,可能不只要你希望发生。
你可能已经爬行你的网站与迁移之前您最喜爱的爬行工具“走活”,你有信心,有?没有问题。但随后的排名和整体可见性下降。?什么可能出了问题?
很多事情可以去错迁移,但考虑到这一点:也许没有什么出了问题。
也许一些尚未通过这些信号都只是“末,非常在运输过程中滞后的信号”,而不是“失去信号。“
有些信号甚至可能需要几个月的时间来传递。?WhyBecause Googlebot不会抓取大型网站像爬行工具做的,这是几乎不可能的工具来模拟。
你有一个迁移计划。?这并不意味着Googlebot会陷入步。的Googlebot,有自己的工作日程,太。
网址抓取频率是在每个网址的基础。谷歌的约翰·米勒证实了这一点,他说:
有的URL每隔几分钟,其他人只是每隔几个月,许多介于两者之间爬。
虽然谷歌指出,不存在影响网址的抓取频率的因素很多,在最近的一次网络研讨会,加里Illyes简称“计划”和URL的事先准备Googlebot在参观“桶”。因此,我们知道存在调度。它也包括在很多谷歌的专利上抓取效率。
值得注意的是抓取频率并不仅仅基于PageRank的,无论是。?无论谷歌的安德烈Lipattsev和加里Illyes在不同的网络研讨会已经说过最近,PageRank是不是爬行或排名,与Lipattsev说:“这(网页级别)的唯一驱动器已成为中,有很多事只有一件事。“
我不会对我的字的过度道歉“重要的”,因为它已经证实,爬行调度主要由“重要性”驱动?网址。
事实上,加里Illyes规定只是在最近的虚拟主题演讲记录采访埃里克·恩格,?他指出,我们不应该继续关注的PageRank作为唯一的驱动程序或爬行排名。
许多网页上的重要性,并提到这在谷歌的专利触摸“可以包括PageRank的,”但很显然的PageRank?这只是其中的一部分。所以?网页的重要性和PageRank是不一样的,但一个(重要性)可以包括其它(网页级别)。
我们知道什么是重要的网页更经常爬。
有那种关系,其中的 。。。当我们想到的东西是非常重要的,我们往往会更频繁地抓取。约翰·米勒
当然,谷歌是不是要告诉我们所有的贡献者页面重要性,但周围爬行效率的若干谷歌专利和管理的URL触及的主题。
这是几个从专利,网络研讨会,谷歌网站管理员视频群聊,老访谈,博客文章和谷歌搜索控制台帮助我发现的。只是要清楚,有无疑更因素,而不是这个,只有一些因素下面列出的是由谷歌证实。
大约有网页重要性的其他线索,太:
近日,加里Illyes与埃里克·恩格虚拟主题研讨会提到,如果一个网页被列入一个XML站点地图,它可能比不包含其他人认为是更重要。
我们知道的hreflang和规范化?用作信号(在页面管理机器人)。
如上所述,PageRank的“可以被包括在页面重要性”(可能与内部的PageRank)。
在谷歌的Search Console帮助中心,内部反向链接被表述为“信号,以搜索关于该网页的相对重要性引擎。“
马特·卡茨,谷歌的前网络垃圾头,根据自己的URL参数水平位置的搜索引擎理解网页的重要性发言。Illyes还采用了“关于我们”页面,并为具有不同程度的重要性的用户谁希望看到新鲜的内容是“经常更换主页”的例子。该?“关于我们”页面并没有太大变化。
文件类型和页面类型在专利也提到了,我们知道,例如,图像类型的频率比其他URL抓取,因为他们不经常改变。
有一件事我们知道做的是改变频率的影响抓取频率。
网址改变所有的时间在网络上。保持尴尬的概率为搜索引擎(该?“尴尬度量”)由?在返回的搜索结果内容过时?下面可接受的阈值是关键,它必须有效地管理。
大多数基于Web爬行效率和信息检索,会议程序和甚至专利学术论文的属性?术语“搜索引擎尴尬”狼等。
打击“的尴尬”(返回结果中陈旧的内容),调度系统都是建立优先抓取重要的页面和经常变动过少的重要网页的重要页面,比如那些微不足道的变化或低权限的网页。
这些关键页面有通过搜索引擎的用户被视为对网页的概率最高不得到经常发现在搜索引擎结果页。
在一般情况下,我们尽了爬行基于我们认为这个页面可能会改变,也可能多久会改变做。因此,如果我们觉得这事保持不变的时间周期较长,我们可能无法抓取它几个月。约翰·米勒
这意味着重要的变化频率了解到随着时间的推移?网页被搜索引擎(它也可以在抓取效率提到谷歌的专利),通过该页面的以前的副本比较当前检测到的关键变化的频率的模式。
重点是页面上的变化是多么的重要搜索引擎用户(“关键材料的变化”),以及如何重要的页面本身是用户(页重要性,?其可包括的PageRank)。
请注意,穆勒说,“什么?我们认为此页可能会改变。“?它需要的是有用的搜索引擎用户的页面要改变某些关键功能(“关键材料的变化”)。
从上面,我们可以得出这样的结论的Googlebot大多?到达一个目的,一个网站的“工作时间表”,并抓取网址的访问期间,“遗愿清单”。在桶列表中的网址已在谷歌搜索引擎系统被分配给它的“日程安排程序”,如果周围爬行效率众多的谷歌专利都可以相信(见图片)。
我说:“主要是”因为最初的发现全新的网站抓取不同。没有什么是已经存在的知识,?所以没有什么 – 没有?过去URL的版本?-?调度程序比较什么。
Googlebot在到达您的网站,如果你的IP(主机)不吃亏访问期间连接放缓或服务器错误代码,Googlebot在完成其遗愿清单和周围检查,看看是否有什么事情比原来的水桶名单上的网址,更重要的这可能还需要收集。
如果有,那么Googlebot可能去远一点并抓取这些重要的网址,以及。如果没有进一步的重大发现,另一桶列表访问您的网站下一次的Googlebot回报。
无论您最近迁移的站点或没有,Googlebot的大多集中在极少数(重要)的网址,以及不时偶尔访问那些被认为最不重要的,或者预计不会经常已经实质性改变(例如,老在电子商务网站上的新闻网站或不变的产品页面存档)。
Googlebot在到达你的网站,你决定去住了迁移,它不是事先警告。它已经有了一个网址列表安排您的网站上打通了,那些可能是重要的网址(搜索引擎用户预期的重要变化)是Googlebot仍希望访问在此之际。
这些网址还是要优先。
Googlebot的是?不见得?想要?访问所有新的重定向的URL,现在,因为不是所有的页面将是同样重要的,他们可能不能指望有任何有用的变化,由于发生了一段时间来?(和?这样就不会被安排在爬)。
最可能的是,搜索引擎?具有?注意的是,您的迁移正在进行中。对Googlebot的前来参观的URL的重定向功能之后,将(也许一个百分比的,也从时间表的另外一个重要的变化外发现保留抓取百分比),以及所有被抓取网页的服务器?响应代码将被报告给状态日志和历史记录日志。
如果Googlebot遇到很多的重定向响应代码,它可能会送,上面写着一个信号“嘿,还有一些迁移正在进行某种那边,”和URL调度会调度访问作为一个结果响应。这是根据约翰·穆勒:
通常,当我们终于看到一个网站正在发生,我们将尝试抓取快一点点回暖的一切。
他们这样做是因为他们想赶上。然而,这并不一定意味着一切?将抓取的通俗易懂,或者说一切都值得,甚至“有追赶”相当长的一段。
在大多数情况下,只?最重要的迁移网址会抓取的为优先,也许更频繁地比他们通常会,太。只是为了确保一切(几个信号)对那些重要的“新”的网址(从“旧”的URL重定向)被拾起。
网页的重要性和变化的频率是?不影响当网址当然会参观,唯一的因素。?这里有几个人:
有限的搜索引擎资源
该网以更快的速度增长比提供给搜索引擎资源。例如,?在互联网上的网站数量2013年和2014年之间增长了三分之一。可用搜索引擎的资源和能力必须越来越多地之间的IP(主机)共享和居住在他们的网站抓取。
主机负载
每个IP(虚拟主机)的连接能力,它可以处理。搜索引擎系统学习一段时间你的主机或IP可以根据其以往的知识处理和调度通过的Googlebot访问。如果你是一个共享的主机,虚拟IP或内容分发网络(CDN),这也将发挥作用,为“主机负载”将学习和与知识产权其他站点共享。Googlebot已被送往爬在这样一种方式,它不会导致服务器损坏。
URL队列和迁移的页面重要性低
有在爬行调度两种类型的队列。首先,有网站队列(严格来说,它的队列IP地址/主机)。其次,也有个别网站内或从IP(主机)页/网址的队列,以爬行。
主机的队列(在其中IP地址和网站)在很大程度上取决于“主机负载。“?可这有什么主机手柄? 如果在连接或服务器错误代码速度变慢,Googlebot可能甚至爬行的优先级最高的重要性,URL和从抓取降较低重要性网址。?在迁移,这意味着低重要性的URL(通常更深的网站)可能?如果Googlebot在服务器上挣扎被丢弃。
Googlebot的还会拉回来,如果遇到这些类型的减速和错误代码一会儿?(在SMX东谷歌的加里Illyes确认,2014)。?因此,甚至更少爬行。这可能意味着,随着时间的推移,你的URL相当队列从站点内的等待参观结束。
主机中的网页的队列,在很大程度上是由“URL调度驱动。“?队列可能?由主要基于变化的频率和网页重要性的各种排序的过程管理。在迁移时,可能一次的Googlebot已通知在搜索引擎中的各种播放器抓取系统(URL调度,历史记录等),被抓取进行排序,并通过了已知的URL排队的网址?从被重定向。
如果你有大量的“不重要的URL”,或与历史的非关键更改网页,或更改网页,但在它们的特点是构成不足够重要“重大变化”,则可能需要在队列中等待一段时间迁移后。而这之前,“主机负载的任何问题。“
当我问约翰·米勒迁移(2016月)期间安排是否仍然适用,他说是的,继续:
我们不能只是突然爬了一个全新的庞大完整的网站迁移后。
抓取效率仍然是关键。
在一个站点的迁移,你已经有效地增加您网站的价值要抓取的网址的整体额外拷贝。?这是如果你已经决定将在一个新的文件夹级别的几个个别网站在现有的主站点,以巩固变得更加糟糕?- 更加网址。
突然间,你问Googlebot抓取,以最低的两倍网址的数量。?即使单独直接重定向(无重定向链或历史“克鲁夫特” – 另一个完整的主题),Googlebot的去从指数创下了301,然后跳上到200 OK(最少两个?每个原始URL访问的URL,所以加倍网站的大小)。
如果你添加什么全新的新鲜,且高度相关的以及内容丰富的内部连接部分,以您的新网站,而老移民的一些低重要的部分仍然没有完全爬?
那么,有一种说法是,新的更重要的得分/更高质量的网站的栏目将被抓取多,老段注意到具有较小的重要性,或低质量的网址排队等待甚至更晚时,有备用容量爬行。
换一种说法,?它需要更长的时间仍然得到跨越一切迁移后通过。
如果你有重复或低价值的内容,该过程将需要更长的时间。您可能需要等待数月! 根据谷歌的前网络垃圾,马特·卡茨负责人:
试想一下,我们抓取从网站三页,然后我们发现另外两个页面,是第三页的副本。我们将下降三分之二的三页,只保留一个,这就是为什么它看起来有那么好的内容。因此,我们可能会导致其无法从该网站抓取相当多。
最近,当由Eric恩格采访时,谷歌的加里Illyes评论:
更高质量的网站的栏目抓取的更多,更深,例如,在植物或树木高质量的部分可能意味着部分中的花页后代会更容易被抓取,因为在网站结构的父页面质量更高。
这在约46分钟在下面的视频提到。
在迁移时,一切都改变了(所有URL),但不是万能的,改变是必然给用户一个非常重要的变化,特别是如果被重定向URL已经被归类为“不重要”低“实质性改变”频率。每一个谷歌最近的专利:
在某些情况下,在搜索引擎的陈旧的内容可能没有特别的意义,因为改动在搜索结果中列出的文档是未成年人,或文档的相关性基本保持不变。
难道是世界的末日,如果它几乎没有变化,或者只有一个页面改变负载几个动态的点点滴滴,从索引重定向?
可能不会。用户仍然设法从通过您的重定向搜索引擎结果页到达目标页面,所以他们的经验是不显著减少。
这可能是因为?跨越更长的尾查询目前的排名(这可以总结到很多)已经到位,由于许多小的信号,从传统的抓取随着时间的推移成熟的URL回升。最重要的网页获得以下迁移早期爬行,而结合对大多数低收入的无-重要页面(可能包括低到没有的PageRank)是?加入大量的整体可视性。
这可以包括的相对重要性票?(E。g。,单从内部链接结构),这将是所有的地方。
用于从这些排名目的的信号将不会跨越新生儿网址,通过后才在搜索引擎的抓取和更新回。这将需要相当长的时间对所有的低重要性(但有助于可见性)页面被抓取。
和你可能已经noindexed以前迁移之前旧网站上这些页面的什么? 他们可能贡献的价值可见性的东西。
加里Illyes评论?在最近与埃里克·恩格虚拟主题演讲,他不认为有从noindexed网址的PageRank传递任何损耗,因此很有可能?这和其他历史排名的信号仍然会添加一些您的网址迁移。
然而,他们没有在索引时间更长,可能不会很长一段时间再次爬,所以任何?传统信号将需要很长的时间通过。
他们仍然会得到从时间访问时间,与404甚至410S一起,因为“水涨船高”是从来没有真正走向(这是另一个整个主题,?这我不打算进入这里)。
例如,在改变地址的站点的这个例子,它的排名下降,谷歌的工程师建议的原因可能是来自旧网站的某些页面不再索引。
很显然,有哪个没有被整个传递有价值的东西,但实际上是至关重要的?(从整体排名的角度看),并已在某些时候通过历史。
一切事项。
直到一切都已经被放回一起迁移之后,你的网站是不一样的。这是一个建了一半的状态,整体拼图丢失或碎片四处移动的部分。
内部链接结构,并从自己的内部网页(文字周围的内部链接,提供上下文,以及任何内部锚)相对重要性的信号已经被重建,一开始。
Googlebot的也需要重建其网页坐在总体架构中了解。一切都被扭曲了,而在任何像样的大小的网站。
整个“相互联系”的主题或您网站的“本体论”,和所有在它的语义相关的,作为一个实体,现在也是不完整。
直到一切都被重新组合(包括低重要性的网页和它们的相对内部链接),相关性,环境和外部和内部的重要信号(包括网页级别)进行重组,该网站是不是?像从前那样,即使你把所有正确的SEO步骤站点迁移。
最初,你可能只是有弯道和拼图改建为“大画面”并在您的网站排名被抓取和处理网站重要页面的两侧,但一切相结合,使得差异。
直到现场重建,因为它以前,Googlebot和其他搜索引擎工人的作业未完成。
至少等待工作,以得出结论之前完成。
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。