其中最无聊的话题在技术SEO是机器人。文本。很少有一个有趣的问题需要在文件中得到解决,而大多数错误来自不理解的指令或错别字。一个机器人的通用。文本文件就是在那里,他们可以建议爬虫,不能去。
用户代理 – 指定哪些机器人。
不允许 – 表明机器人无法抓取这个区域。
允许 – 允许机器人抓取这个区域。
抓取延迟 – 告诉机器人继续抓取之前等待一定的秒数。
网站地图 – 指定站点地图的位置。
NOINDEX – 告诉谷歌从索引中移除网页。
# – 评论掉一次线,这样就不会被读取。
* – 匹配任何文本。
$ – 网址?必须在这里结束。
机器人。文本必须在主文件夹,我。?。,域名。COM /机器人。文本。
每个子域都需要自己的机器人。文本?- WWW。域。COM /机器人。文本是不一样的域。COM /机器人。TXT。
爬行可以忽略机器人。TXT。
URL和机器人。TXT文件是区分大小写。
不允许只建议爬虫不要去的位置。很多人用这个来尝试去索引页,但它不会工作。如果有人链接到外部页面时,它仍然会在SERP中所示。
抓取延迟不是由谷歌兑现,但你可以在谷歌搜索控制台管理检索设定。
允许CSS和JS,根据谷歌的加里Illy?s:
用户代理:Googlebot的
允许: 。JS
允许: 。CSS
验证您的机器人。在谷歌搜索控制台和Bing网站管理员工具TXT文件。
NOINDEX将工作,?根据石庙咨询公司的埃里克·恩格,但谷歌网站管理员趋势分析师约翰·穆勒建议不要使用它。最好是通过加入noindex元的机器人或X-Robots。
不要挡住爬行,以避免重复内容。了解更多关于谷歌如何整合各地重复的内容信号。
难道这是重定向不准许页。蜘蛛将无法跟随重定向。
禁止页防止以前的版本在档案被显示。组织。
您可以搜索存档。组织对旧版本的机器人。TXT?- 只要输入网址,我。e。,域名。COM /机器人。文本。
对于机器人的最大尺寸。文本文件是500 KB。
许多公司已经做了创造性的东西与他们的机器人。文本文件。看看下面的例子!
耐克。COM有一个很好的拿他们自己的机器人的内部口号。TXT,“只是抓取”,但他们也包括他们的标志。
先见还使用本领域,并且具有募集消息。
到到网有一个?在机器人招聘信息权。文本文件。
Yelp的喜欢提醒机器人,阿西莫夫的三大现行法律对。
由于做最后。调频。
据到YouTube,我们已经失去了战争机器人。
壹力,且他们的机器人一个漂亮的“星球大战”参考。文本。
谷歌希望确保拉里·佩奇和谢尔盖·布林是安全的,从终结者在他们的杀手机器人。txt文件。
谁可以忽略了互联网的头版? reddit的引用本德尔从“飞出个未来”和戈特从“天大地停转。“
人类。TXT描述自己为“一个倡议知道一个人背后的网站。它是包含有关谁已建立的网站贡献了不同的人的信息的TXT文件。“我很惊讶,更经常看到这个比当我试图在几个领域我还以为。退房的https:// WWW。谷歌。COM /人。txt。
我最喜欢的例子是由奥利弗·梅森,谁禁止一切吩咐他的博客告别,只有然后让每个单独的文件的文件中再次向下更远。正如他在底部评论,他知道这是一个坏主意。(不要只是读机器人。这里的txt,认真,去阅读这家伙的整个网站。)
在我的个人网站,我有一个机器人。txt文件乱七八糟的人,以及。文件验证正常,即使乍一看它看起来像我阻止所有爬虫。
其原因是,我保存的文件有BOM(字节顺序标记)字符开头,这让我的第一线无效的 – 因为你可以看到,当我走在谷歌搜索控制台验证。?随着第一线无效,不允许有任何的User-Agent参考,所以它也是无效。
如果你搜索“世界上最伟大的搜索引擎优化”,你会发现在马特·卡茨的网站的页面实际上并不存在。SEO MOFO选择了被封锁的目录(/文件)?https://开头WWW。mattcutts。COM /机器人。txt。谷歌已经在本网页的唯一信息是从建造到不存在的页面的链接。虽然页404,谷歌仍显示它从链接锚文本的搜索结果。
由亚历克·伯特伦没想起来,?这个惊人的壮举记载还有什么地方,但他的机器人。txt文件。?他有怎样的源,甚至一个菜单来引导你。
这也用在vinna。cc至嵌入整个游戏到文件。头部到https://开头vinna。立方厘米/机器人。txt?玩机器人机器人革命!
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。