聚视网dnf玩转机器人。文本

  其中最无聊的话题在技术SEO是机器人。文本。很少有一个有趣的问题需要在文件中得到解决,而大多数错误来自不理解的指令或错别字。一个机器人的通用。文本文件就是在那里,他们可以建议爬虫,不能去。

  用户代理 – 指定哪些机器人。

  不允许 – 表明机器人无法抓取这个区域。

  允许 – 允许机器人抓取这个区域。

  抓取延迟 – 告诉机器人继续抓取之前等待一定的秒数。

  网站地图 – 指定站点地图的位置。

  NOINDEX – 告诉谷歌从索引中移除网页。

  # – 评论掉一次线,这样就不会被读取。

  * – 匹配任何文本。

  $ – 网址?必须在这里结束。

  机器人。文本必须在主文件夹,我。?。,域名。COM /机器人。文本。

  每个子域都需要自己的机器人。文本?- WWW。域。COM /机器人。文本是不一样的域。COM /机器人。TXT。

  爬行可以忽略机器人。TXT。

  URL和机器人。TXT文件是区分大小写。

  不允许只建议爬虫不要去的位置。很多人用这个来尝试去索引页,但它不会工作。如果有人链接到外部页面时,它仍然会在SERP中所示。

  抓取延迟不是由谷歌兑现,但你可以在谷歌搜索控制台管理检索设定。

  允许CSS和JS,根据谷歌的加里Illy?s:

  用户代理:Googlebot的

  允许: 。JS

  允许: 。CSS

  验证您的机器人。在谷歌搜索控制台和Bing网站管理员工具TXT文件。

  NOINDEX将工作,?根据石庙咨询公司的埃里克·恩格,但谷歌网站管理员趋势分析师约翰·穆勒建议不要使用它。最好是通过加入noindex元的机器人或X-Robots。

  不要挡住爬行,以避免重复内容。了解更多关于谷歌如何整合各地重复的内容信号。

  难道这是重定向不准许页。蜘蛛将无法跟随重定向。

  禁止页防止以前的版本在档案被显示。组织。

  您可以搜索存档。组织对旧版本的机器人。TXT?- 只要输入网址,我。e。,域名。COM /机器人。文本。

  对于机器人的最大尺寸。文本文件是500 KB。

  许多公司已经做了创造性的东西与他们的机器人。文本文件。看看下面的例子!

  耐克。COM有一个很好的拿他们自己的机器人的内部口号。TXT,“只是抓取”,但他们也包括他们的标志。

  先见还使用本领域,并且具有募集消息。

  到到网有一个?在机器人招聘信息权。文本文件。

  Yelp的喜欢提醒机器人,阿西莫夫的三大现行法律对。

  由于做最后。调频。

  据到YouTube,我们已经失去了战争机器人。

  壹力,且他们的机器人一个漂亮的“星球大战”参考。文本。

  谷歌希望确保拉里·佩奇和谢尔盖·布林是安全的,从终结者在他们的杀手机器人。txt文件。

  谁可以忽略了互联网的头版? reddit的引用本德尔从“飞出个未来”和戈特从“天大地停转。“

  人类。TXT描述自己为“一个倡议知道一个人背后的网站。它是包含有关谁已建立的网站贡献了不同的人的信息的TXT文件。“我很惊讶,更经常看到这个比当我试图在几个领域我还以为。退房的https:// WWW。谷歌。COM /人。txt。

  我最喜欢的例子是由奥利弗·梅森,谁禁止一切吩咐他的博客告别,只有然后让每个单独的文件的文件中再次向下更远。正如他在底部评论,他知道这是一个坏主意。(不要只是读机器人。这里的txt,认真,去阅读这家伙的整个网站。)

  在我的个人网站,我有一个机器人。txt文件乱七八糟的人,以及。文件验证正常,即使乍一看它看起来像我阻止所有爬虫。

  其原因是,我保存的文件有BOM(字节顺序标记)字符开头,这让我的第一线无效的 – 因为你可以看到,当我走在谷歌搜索控制台验证。?随着第一线无效,不允许有任何的User-Agent参考,所以它也是无效。

  如果你搜索“世界上最伟大的搜索引擎优化”,你会发现在马特·卡茨的网站的页面实际上并不存在。SEO MOFO选择了被封锁的目录(/文件)?https://开头WWW。mattcutts。COM /机器人。txt。谷歌已经在本网页的唯一信息是从建造到不存在的页面的链接。虽然页404,谷歌仍显示它从链接锚文本的搜索结果。

  由亚历克·伯特伦没想起来,?这个惊人的壮举记载还有什么地方,但他的机器人。txt文件。?他有怎样的源,甚至一个菜单来引导你。

  这也用在vinna。cc至嵌入整个游戏到文件。头部到https://开头vinna。立方厘米/机器人。txt?玩机器人机器人革命!

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部