拉手网团购东莞共同追寻开源项目带回的PageRank

  在过去的几年里,谷歌已经慢慢减少了数据提供给SEO从业者的数量。首先,它是关键字的数据,然后PageRank得分。现在,它是从AdWords的搜索量(除非你花一些moola)。你可以阅读更多关于这拉斯琼斯的优秀文章,详细介绍了卷歧义他的公司的研究和见解影响到点击流数据。

  一个项目,我们已经得到了真正参与近期是常见的抓取数据。有几支球队在我们的行业已经使用此数据有一段时间了,所以我觉得有点晚了的游戏。常见的抓取数据是一个开源项目,定期刮整个互联网。值得庆幸的是,亚马逊,被大公司来说,在投来存储数据,以使其可用于许多不高的存储成本。

  除了常见的抓取数据,有一个非盈利称为通用搜索,其宗旨是建立一个替代开源的,透明的搜索引擎?- 相反,在许多方面,谷歌的。这引起了我的兴趣,因为这意味着我们都可以播放,修改并裂伤的信号,了解搜索引擎无需从零开始的巨额一次性投资如何运作。

  目前,普通的搜索使用计算其搜索排名(这是直接从他们的网站采取)以下数据来源:

  常见的抓取:网络爬虫数据的最大的公开信息库。这是目前我们唯一的原始页面的数据源。

  维基数据:免费,链接数据库作为中央存储许多维基计划,例如维基百科,维基导游和维基的结构化数据。

  UT1黑名单:从üniversite电图卢兹1国会大厦,这个黑名单分类域名和网址分为几类,其中包括“成人”和法布里斯PRIGENT维护“网络钓鱼。“

  DMOZ:也称为开放目录项目,它是历史最悠久,规模最大的网页目录还活着。虽然它的数据是不可靠的,因为它是在过去,我们仍然把它作为一个信号和元数据源。

  Web数据共享超链接图表:从2012通用抓取档案的所有超链接的图形。目前,我们正在利用其谐波掌文件作为域的临时排名信号。我们计划在不久的将来执行我们自己的web图的分析。

  Alexa的顶部1M网站:Alexa的排名基础上的页面浏览量和独特的网站用户组合措施的网站。这是已知人口统计学偏置。我们使用它作为域的临时排名信号。

  除了这些数据源,在调查的代码,它也将使用URL?长度,路径长度和域的PageRank作为它的算法的排名信号。你瞧,7月份以来,通用搜索已经对主机级的PageRank自己的数据,我们都错过了。

  我会在片刻的PageRank(PR),但有趣的是,审查共同抓取的代码,尤其是排名器。位于吡啶部分在这里,因为你真的可以进入驾驶座与调整,它使用的排名页面的信号的权重:

  signal_weights = {

  “Url_total_l恩gth”:0.01,

  “Url_path_length”:0.01,

  “Url_subdomain”:0.1,

  “Alexa_top1m”:5,

  “Wikidata_url”:3,

  “DMOZ_domain”:1,

  “Dmoz_url”:1,

  “Webdatacommons_hc”:1,

  “Commonsearch_host_pagerank”:1

  }

  特别值得注意的是,还有,就是普通的搜索使用BM25作为关键字的相似性措施文档正文和元数据。BM25比TF-IDF更好的措施,因为它需要的文件长度考虑在内,这意味着有您的关键字五个200-word文档?时间可能比有它相同的次数1500-word文档更相关。

  这也是值得说的是,这里的信号数量非常简陋,显然缺少许多改进(和数据),谷歌已经集成在他们的搜索排名?算法。其中一个是我们正在努力的关键事情是使用通用抓取获得的数据和通用搜索的基础设施做基于语义相关内容题目矢量搜索,而不仅仅是关键字匹配。

  在此页面中,你可以找到链接到主机级别的PageRank为2016年6月共同抓取。我现在用的是一个名为PageRank的,top1m。文本。GZ(顶部百万),因为其他的文件是3GB和超过1.12亿域。即使是在R,我没有足够的机加载它没有达到上限。

  下载后,您需要将文件放入R中工作目录。从通用搜索中的PageRank数据未归,也没有在干净0-10格式,我们都习惯看到它。公共搜索使用“MAX(0,分钟(1,浮动(评级)/ 244660.58))“?- 基本上,一个域的秩除以Facebook的秩 – 作为翻译数据的方法成分布在0和1之间。但是,这留下了一些明确的差距,这将离开LinkedIn的PageRank为1.4当由10缩放。

  下面的代码将加载数据集,并具有更好的近似PR追加PR列:

  #Grab数据

  DF < - 读。CSV(“歌的PageRank,top1m。TXT “首标= F,九月=”“)   #Log正常化   logNorm < - 函数(X){   ? #Normalize   ? X < - (X-分钟(X))/(最大值(X)-min(X))   ? 10 /(1 - (日志10(X)*。25))   }   #Append名为PR到DataSet列   DF $ PR < - (轮(logNorm(DF $ V2),数字= 0))   我们必须与周围的数位玩得到它靠近的地方(为域的几个样品,我想起了公关)至老谷歌PR。下面是几个例子PageRank的结果:   en。维基百科。组织(8)   searchengineland。COM(6)   consultwebs。COM(5)   YouTube的。COM(9)   moz。COM(6)   这里是10万个随机样本的阴谋。计算出的PageRank值是沿Y轴,和原来的通用搜索比分是沿X轴。   要抢自己的结果,你可以运行在R中的以下命令(刚刚替补自己的域名):   DF [DF $ V1 ==“searchengineland。COM”,C( ‘PR’)]   请记住,这个数据集只拥有顶级的PageRank的百万域名,所以出112万个域名是通用搜索索引,有一个很好的机会,您的网站可能不会存在,如果没有一个很好的链接配置文件。此外,该指标不包括指示链接的危害性,只是相对于链接你的网站的知名度的逼近。   通用搜索是一个伟大的工具和伟大的基础。我期待着更多地参与与社会存在,并希望学习通过实际工作的一个更好的了解螺母和螺栓搜索引擎背后。随着R和一些代码,你可以有一个快速的方式在几秒钟内检查PR一万个域名。希望你喜欢!   在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部