外链搜索引擎如何处理链接

  你有没有想过,为什么404,相对=礼服,NOINDEX,nofollow的,和机器人。TXT工作,他们做的方式? 或者你从来没有明确的上相当他们是怎么做的所有工作? 为了帮助您了解,这里是搜索引擎如何抓取网页和链接添加到链接图一个非常基本的解释。

  搜索引擎爬虫(让我们把它一个有趣的蜘蛛)访问一个站点。它收集的第一件事情是机器人。txt文件。

  让我们假设该文件不存在,或者说,这没关系抓取整个网站。爬虫收集所有这些页面的信息,并反馈到数据库。严格地说,这是一个爬行调度系统,去重复和洗牌优先页面编入索引后。

  虽然它的存在,它收集所有的列表页,每一页网页链接。如果他们的内部链接,履带?可能会跟着他们到其他页面。如果他们是外部的,他们得到放入数据库中供以后。

  后来,当链接图得到处理,搜索引擎翻出数据库的所有环节和连接它们,将它们分配相对值。的值可以是正的,或者它们可以是负。让我们想象一下,例如,页面的,一个是垃圾邮件。如果该页面可以链接至其他页面,则可以通过一些不好的链接值上对这些网页。比方说,S =垃圾邮件发送者,和G =好:

  在右上角的页面有除S的多个G的。因此,将获得相当不错的成绩。。只有G公司的一个页面,将获得更好的成绩。如果S的压倒了G公司,该页面将获得一个相当悬殊比分。再加上并发症有作者的一些G公司的价值超过别人,你有怎样的联系图形作品的一个非常简化的视图。

  让我们回到那个最初的例子。假设机器人。txt文件告诉不是搜索引擎对这些网页的访问一个。

  这意味着,虽然搜索引擎在地上爬来爬去,通过网页,使链接列表,它不会有关于被列入机器人,页面的任何数据。txt文件。

  现在,回到那个超级简单的链接图示例。让我们假设右上角的页面是被阻断的机器人,页。文本:

  搜索引擎仍然会采取所有的链接到该网页,并尽数。这不会是能够看到的网页该网页的链接,但它会是什么能够添加链接的价值指标的页面 – ?影响域作为一个整体。

  接下来,让我们假设,而不是阻塞与机器人,页。TXT,我们只是删除了。因此,搜索引擎会尝试访问它,却得到了一个明确的信息,即它不存在了。

  这意味着,当被处理的链接图,链接到网页走开。他们得到保存以备后用,如果该页面回来。

  在一些其他的点(可能由一组不同的服务器!),已检索会被分配给一个索引页优先。

  页面上的索引标识的单词和元素与数据库中的单词和元素匹配。做“蓝色小工具搜索。“搜索引擎使用数据库来查找相关的蓝页,窗口小部件,以及蓝色小工具。如果搜索引擎还认为,小部件(单数)和矢车菊(一种蓝)是同义词,它可以评估这些词的页面在页面上,以及。

  搜索引擎?使用它的算法来确定适合该索引页有一个分配给他们的那些话,评价指向的页面和域名环节,流程等几十个已知和未知的指标在数值到达。如果网站被过滤为不良行为像熊猫或企鹅,这也是考虑到。总体价值则决定了在结果页面会出现。

  这是由事情进一步复杂化网站管理员可以做操作值。例如,如果两个页面非常相似,网站管理员可以决定使用r?l =规范的信号搜索引擎,只有那些页面中的一个具有价值。这不是决定性的,但。如果“矢车菊部件”页面的rel =规范-ED的“蓝色小工具”页面,但矢车菊控件页面有指向更有价值的链接,搜索引擎可以选择使用矢车菊小部件页面,而不是。如果规范被接受,在网页和链接指向的网页两种元素的值组合。

  NOINDEX更明确。它的工作原理类似于机器人。不同之处在于不是从爬行该网页被阻止TXT,搜索引擎能够访问它,但后来被告知要离开。搜索引擎仍然会在页面上收集的链接添加到数据库中(除非页面上的指令还表示不跟着他们,我。e。nofollow的),它仍然会值分配给指向该网页的链接。

  但是,它不会与其他任何网页巩固值,也不会流过的页面停止值。所有NOINDEX不IS要求搜索引擎的页面不分配给它的索引。

  因此,只有一个明确的方式停在目的地链接值的流。以网页完全消失(404或410点的状态)是阻止它的唯一途径。410比404更明确的,你可以读到这里,但都将导致网页被索引的最终退出。有多种其他的方式来阻止链接的始发路段流量,但很少站长比其他部位的控制,只有自己。

  希望这个引子能够帮助您理解页面如何被搜索引擎和机器人之间的区别访问。TXT,NOINDEX,并没有发现,特别是涉及到链接。请在评论中留下任何问题,一定要在SMX Advanced(高级)看看我的会话:在高级技术SEO最新。

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部