Ask an SMXpert系列继续了在西雅图举行的2018年SMX高级会议上的问答环节。
今天的问答来自于高级SEO技术:页面速度,站点迁移和与来自Microsoft/Bing的Frederic Dubut的爬行会话。
问:如果我们有一堆新内容想要建立索引,但又担心我们没有足够的抓取预算,我们应该首先做什么:专注于增加抓取还是为新内容建立索引?
弗雷德里克:如果你现在遇到了严重的爬行问题,你一定要努力稳定你的爬行。请记住,最严重的爬行问题通常是由于重复的内容。无论您是否打算发布一堆新内容,这都是您应该做的事情,尽管在前一种情况下,这更为关键。
如果您目前没有遇到爬行问题,并且新内容的数量与现有内容的数量不成比例,那么您可以从索引新内容开始,并监视爬行器抓取新内容的速度。
发布一个最新的、全面的网站地图会有帮助,发布一个真正简单的聚合(RSS) feed也会有帮助,它可以链接到过去三个小时内发布的所有新内容。记得在Bing网站管理员工具(BWT)中注册这两个工具以获得最大的影响。
问题:谷歌表示,随着时间的推移,他们倾向于将302视为301。Bing也是这样吗?
一般来说,我们强烈建议对永久重定向使用超文本传输协议(HTTP) 301,对临时重定向使用HTTP 302。
根据经验,如果统一资源定位器(URL)重定向到相同的目标超过一天,它应该是HTTP 301重定向。
如果Bing看到你的HTTP 302重定向总是指向相同的URL,它可能最终会认为这是一个永久重定向(即HTTP 301重定向)。然而,这将需要一段不确定的时间,并且根本不能保证这发生。
为了完全控制索引并确保信号正确传播,您应该始终使用HTTP 301进行永久重定向,特别是在大规模迁移的情况下,这已经足够棘手了。
问:假设不关心性能下降,爬行预算也是一个问题吗?
Frederic:如果你的网站性能下降,Bing爬虫会自动节流,以保持你的网站的状态。这实际上会导致爬行预算的减少。
至于爬行预算是否值得关注这个更普遍的问题,如果您的站点相对较小,并且经过了搜索引擎优化(SEO),那么它可能就不值得关注了。站点越大,就越需要考虑抓取预算以及如何满足抓取需求。
问:对于Bing的爬虫来说,站点地图中url的最佳数量是多少?url是否有首选的排序顺序,或者它们应该被随机化?
Frederic:站点地图中url的排序顺序并不重要。在Bing的爬虫程序下载了你的站点地图后,url被提取出来,并与我们已经积累的所有其他信号连接在一起。然后根据聚合的信号对爬行队列排序。
也没有最佳的url数量。你应该在你的站点地图中列出所有相关的url,并且至少每天更新一次——就这么简单。当然,你也需要确保你的站点地图中没有重复的内容或糟糕的url。
问:如果您有一个拥有许多URL参数的电子商务网站产品过滤页面,每个页面都有到根未过滤列表页面的规范,这是浪费爬行的预算吗?如果是的话,你会怎么做呢?
Frederic:在这种特定情况下,告诉爬虫程序关注规范(不含查询参数)的最有效方法是将这些查询参数添加到Bing网站管理员工具的Ignore URL参数列表中。在您完成此操作之后,Bing爬虫程序将基本上将具有和不具有这些查询参数的url视为等价的,并且它将集中搜索没有这些参数的url。您可能仍然会在url上看到一些有限的抓取量,这些url带有用于验证的查询参数。
您还应该在站点地图中包含所有的规范,并确保它不包含任何这些带有过滤器查询参数的重复url。通过完成所有这些工作,您将大大减轻使用这些不同的URL变体对爬行预算的影响。
问:Bing网站管理员工具中有什么我们应该知道的新东西吗?
Frederic: Bing在SMX高级版期间宣布在BWT控制台支持Bing AMP浏览器和JSON-LD。你可以在这里阅读。