免费考研论坛网从数据探索:一个实验,试图预测谷歌的排名

  在过去的几个月中,我们一直与一个名为统计中心(数据科学公司,来自巴西)到工程公司工作的特点预测算法。一个与预测算法的工作最初考虑的是采摘相关数据,他们在训练。

  我们的目标很天真地放在一起名单的网页功能,我们认为可能会提供一些价值。我们的目标是简单地看,如果从现有的功能,我们可以得到接近预测谷歌的网页排名。我们很快就到这个过程中,我们不得不把眼罩上,这是无法访问的,并希望最好与我们有什么样的数据。

  下面是我们所收集的数据,如何收集它的和有用的相关性从所述数据导出的分析。

  一个初始的问题是,我们需要获得上级足够的搜索引擎结果页面(SERP)的结果数据,以提供一个有用的训练集访问。幸运的是,GetStat使这个很容易。随着GetStat,我们只需在美国装载了关键字组合在顶部2五服务行业与前200个城市的位置(按大小)。这导致了5000个独特的搜索字词(E。G。“夏洛特会计师”从北卡罗来纳州夏洛特市采取)。

  我们的?公司Consultwebs,专注于法律的营销,但我们希望该模型更普遍。装载了5000项,等待了一天之后,我们有我们可以使用约50万家搜索结果来构建我们的数据集。

  找到这个那么容易,我们?收集到的数据的其余部分。我建了几个爬虫与节点。JS,所以我决定建立在顶部的特征提取机制既存工作成果。幸运的是,节点。JS是这类工作的良好生态系统。下面我列出几个库,使节点美妙的数据收集:

  Aylien TextAPI – 这是一个第三方服务,做情感分析,文本提取,汇总,概念/关键字提取和命名实体识别节点API(NER)。

  自然 – 一个真棒自然语言处理工具包节点。它不望其项背什么是可用的Python,但对我们的需求令人惊讶的有益。

  文本统计 – 帮助来获得阅读水平上的句子长度的数据,等等。

  雄伟壮观的 – 我通过他们的爬行自定义脚本开始了API,但他们一饮而尽,这是非常好的提供的数据。谢谢,迪克森!

  Cheerio – 一个易于使用的库使用jQuery风格的标记解析的DOM元素。

  IPInfo – 不是一个真正的图书馆,而是一个巨大的API来获取服务器信息。

  抓取过程非常缓慢,这主要是由于通过API提供商命中限制和我们的代理服务。我们将创造一个集群,但费用的限制我们打约每秒一次一对夫妇的API。

  慢慢地,我们获得了充分500000个完整网址抓取。下面是我与抓取数据收集的网址经验几点注意事项:

  使用的API在可能的情况。Aylien是在执行任务的宝贵其中节点库会出现不一致。

  找到一个很好的代理服务,将允许连续通话之间切换。

  创建网站和内容类型可能会导致错误的逻辑。Craigslist的,PDF和Word文档的抓取时产生的问题。

  检查所收集的数据努力,尤其是在头几千年的结果,以确保在抓取错误不与收集的数据结构中产生的问题。

  我们已经公布的业绩从一个单独的职位排名的预测,但我想回顾一些数据收集的有趣的见解的。

  对于这个数据,我们减少了整个数据设置为只包括在排名前20位的排名,也除去基于参考域观察顶部四成。在去除指域的顶部百分之四的目标是保持网址,如谷歌,Yelp和其他大型网站从具有的平均不当影响。由于我们专注于服务行业的结果,我们希望确保本地商业网站可能会被比较,而不是主要的目录。

  在下面的图表中,我们假设网页设计师类是最大的,因为底部的链接的网站,从工作实践。第二两个最高的是毫不奇怪我们这些谁在法律利基工作。

  我们再次过滤顶端在所有观察20排名结果,也除去基于参考域从谷歌,Yelp和其他大型网站删除网址的意见顶部四成。随意在提案资格特别是当城市需要的客户使用该。

  这里的顶级结果没有惊喜,我们这些谁曾客户在这些城市。纽约,特别是许多壁龛一项艰巨的任务。

  对于这个数据,我们一直满秩数据在每个搜索字词100倍的结果,但我们已观察超过前四名%的门槛提到域和超过5000名Facebook股票。这是一个最低限度,以减少总体规模,但它提出的数据图更清洁。

  情节让我想起了当我外出拍摄范围,在确实没有为了拍摄。的平均股秩Pearson相关为0.016,你可以从图表告诉大家,这将是很难得出Facebook和任何效果之间的线路上的排名,这些类型的网站。

  对于引流量(CF),我们呆在一起,每个搜索字词的全部100个结果,但我们再次取出指结构域的前四成。不出所料的人谁使用这个指标,有非常强的相关性-0。平均得分CF和排名位置之间872。有一种负相关关系,因为随着CF分数的进展越高,排名越低。这是一个很好的理由使用CF。

  对于Trust流量,我们呆在一起,每个搜索字词的全部100个结果,但我们再次取出指结构域的前四成。相关性不强如引流量,但在比较强-0.695。从图中一个有趣的注意的是向上的轨迹,你进入前20项结果。还要注意的是,1到3个位置很可能扭曲由于其他指标对当地结果的影响。

  速度是今天每个人的心灵的顶部与谷歌的重点是它和新的项目,如AMP。由于爬行的限制,我们只能测量所花费的托管服务器的时间让我们的页面内容。我们希望小心,不要把这种加载时间,因为这通常被认为是因为它需要你的浏览器加载时间和显示页面。还有一个考虑我们的服务器(AWS)和主机之间遇到的延迟,但我们认为在总的歪斜的效果可以忽略不计。

  再次,这是为每个搜索项100个的搜索结果,与顶百分之四,参照域除去。Pearson相关为0.414,这表明响应时间和排序之间的关系。

  虽然类似于Backlinko为HTTPS发现的相关性,这可能会更好地运行的角度来解释,并且优化的网站各地往往是向顶部。在Backlinko调查结果,我会质疑它是否是准确的HTTPS粉笔到谷歌排名的偏好(我知道他们在说什么),或者这样的事实:在许多垂直,顶部结果通过对HTTPS倾向于品牌所垄断。

  这一个是有点震惊我的,但请记住,在这组数据的关键字在本质上更多的事务,而不是通常的维基引发的结果。满100次的结果被使用,以及顶端百分之四参照除去域。

  Pearson相关于等级是0.829,这表明它可能不是所有的有关内容较长。请再次注意,本地结果是明显存在,而且要注意,文本长度以字符测得,可通过除以4被转换为平均的话是很重要。5。

  其中的其他功能,我们收集到的服务器类型。该数据来自服务器的响应报头“服务器”拉出并归类到的13个类别一个。我们限制的结果,排名前20位的每个搜索词,并没有过滤器放置于指域。此外,我们省略了数据集中没有定义或不经常说的类型。类型“GWS”是谷歌的Web服务。较低的平均排名可以归因于谷歌视频和谷歌本地搜索结果通常与突出的定位出现。

  对于URL深度,我们过滤顶端在所有观察20排名结果,也除去基于参考域从谷歌,Yelp和其他大型网站删除网址的意见顶部四成。这是一个有趣的一个,因为共同的建议是,你希望你的最重要的成果尽可能靠近现场尽可能的根。另外,注意局部的嗜好性的网站主页的影响。

  我不认为有什么真正的惊天动地在我们的数据分析结果,这是从70 的功能,我们我们的训练过程中收集的数据只是一小部分。

  对我来说最重要的两个外卖是链接和速度是其中一个可以在网站上最具影响力的地区。内容需要好(有迹象到处是用户行为的影响排名的一些垂直),但你必须看到,产生的用户行为。有一两件事是最有趣的在这组数据是,它更倾向于小企业类型的查询比其他的研究,样本范围广泛的查询减速。

  我总是一直在测试,而不是依靠其他人或什么什么工作的倡导者报道您最喜爱的博客。GetStat和JavaScript代码(节点)可以给你得到的结果更细致入微的视图能够方便地放在一起收集机制有关你工作的利基。试图提供当能够提供这些类型的研究还可以帮助?理由对我们的非SEO同行,为什么我们推荐的东西做一定的方式。

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部