安溪教育信息网使用Word载体和SEO应用它们

  今天,SEO世界充斥着术语“相关。“谷歌已经顺利过去关键字及其频率看意义给予通过的话,他们如何与手边的查询。

  事实上,多年来,用于与文本和语言工作常用的术语已经自然语言处理(NLP)。新的焦点,虽然是自然语言理解(NLU)。在下面的文章中,我们想向您介绍一个机器学习的产品,一直是非常有帮助的量化和提高的内容相关性。

  今年年初,我们开始设计基于一个代码库的培训模式?从安德烈Karpathy叫做炭火RNN。这个代码库真正有趣的事情是,你可以(在培训)结束了,将基于它从训练文档了解到生成内容的模型。它不会重复刚才的内容,但它会产生新的可读(虽然很无厘头)内容。

  它的工作通过使用神经网络,以了解哪些字符旁边猜。如果你有时间,Karpathy的写起来是一个迷人的读这将帮助你了解更多的有关此工作原理。

  在测试了各种代码库,我们遇到了一个,而不是预测的人物,试图预测哪些单词会来下。这样做的最有趣的部分是,它使用一种叫做认为已基本单词变成数字以这样的方式使得数坐标的情节赋予的词与词之间语义关系手套的嵌入。我知道,这是一个拗口。

  手套代表“的字表示全球矢量。“他们是从非常大的内容的语料库,并期待建立以字共现统计来定义这些词与词之间的关系。从他们的网站:

  手套是获得矢量表示单词无监督学习算法。上聚集全局字,词共现统计信息语料库进行培训,并将得到的交涉展示词汇向量空间的线性有趣子。

  这里是术语“SEO”转换成字矢量的例子:

  与手套的嵌入工作,你需要用Python和Word2Vec熟悉程度,以及足够大的服务器来处理内存中存储的6 十亿字。你被警告了。

  手套载体是重要的,因为它们可以帮助我们了解和相关措施。使用Word2Vec,你可以做一些事情,如量词或文档之间的相似性,找到一个词或短语最相似的话,相互加减关键词,找到有趣的结果,也是可视化文档中的单词之间的关系。

  如果你的Python的理解,Gensim是运行在词和文档相似性分析的优秀工具。我们更新了Github上一个转换器,以使其更容易手套向量转换为格式Gensim可以使用这里。

  要显示手套矢量的功率,以产生语义上相似的字到种子词或短语,看看下面的图像。这是找到最相似的词为“酒后驾车律师”使用Gensim库和手套矢量(地理名词被拆除)的结果。

  注意如何将这些没有字的变化或同义词,而是概念与律师在这一活动领域打交道时,你会想到遭遇。

  其中的一个矢量的功率的最频繁使用的例子如下所示。自言被转换成数值载体,并且有在向量的位置语义关系,这意味着你可以使用简单的算术上的矢量找到更多的意义。在该示例中,单词“特大”,“人”,“女”都变成手套之前加减矢量,和“女王”是非常接近的所得载体。

  一旦我们能够把文本文档到其产生的载体,我们可以使用一种叫做T-SNE非常酷库D3一起绘制的那些话。JS。我们已经组建了一个简单的演示,让你输入一个关键词短语和两个排名网址中使用的手套载体来查看向量空间的差异。

  演示是在这里。

  需要指出的几件事情要看看使用演示时是非常重要的。

  通知字的分组都不怎么干脆关闭变化或同义词,而是唯一字只属于彼此。

  该工具通过提取网页上的内容的作品,所以,如果没有太多与工作,结果将不会很大。小心使用主页,是摘录的上市或大部分基于图像的内容页面。

  所得到的字的大小是基于与遇到这个词的频率,而不是单词的重要性。如果你输入一个以相同期限的排名比你高的比较URL,利用色差注看到主题或主题区域,你可以在网页上丢失。

  很显然,从SEO的角度来看,有利于创建内容,涵盖的话题尽可能彻底,并确保为你的访问者一个很好的经验。虽然我们不指望所有的SEO跑出学习Python,我们认为明知有非常惊人的动力加以利用,为此被中继的一个重要点。手套载体的许多工具可以利用,给你的竞争优势一个。

  最后,对于那些谁是潜在狄利克雷分配(LDA)的球迷,克里斯·穆迪发布今年称为LDA2Vec使用LDA的主题造型,以词矢量沿项目,打造一个语料库中的分配和了解各种主题的有趣的方式文字。

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部