她最大的成就是:反向文档频率(idf)。它至今仍有重大的影响。
Idf及其变体实际上是所有现代复杂搜索引擎算法的基础,包括谷歌、Bing和Duck Duck Go所使用的算法。她在1972年的一篇论文中发布了她的算法tf*idf,题为“术语特异性的统计学解释及其在检索中的应用”。
凯伦·斯帕克·琼斯是“探索的爱因斯坦”
Sparck Jones教授发明了最重要的关联算法组件,至今仍是搜索引擎算法的关键部分。即使修改调整了特定集合的排名策略,她的创新也让用户能够使用更自然的语言进行搜索。
在她工作之前,找工作是相当困难的。单是词频(tf)就通过单词密度度量来对文档进行排序:单词计数除以单词计数。使用tf,您不能轻松地使用自然语言来获得有意义的结果,因为您会从“the”等普通单词中获得干扰。
tf*idf背后的概念是惊人的既简单又优雅,就像爱因斯坦的相对论一样。琼斯写道:“一个词的特异性可以量化为它出现在文件数量的反函数。”
这个算法有一个对数
Idf计算包含词的文档频率的倒数的对数,可以将其看作一个分数:所有文档除以搜索词出现的文档数量。其结果是,很少出现在集合中的单词在相关性排名中的重要性增加。
当停止词出现在许多文档中时,它们会同时降级,有时当它们出现在一个集合的所有文档中时,它们会一直降级到0。如果单词“the”出现在包含100个文档的集合中的所有100个文档中,那么单词“the”的得分恰好为零。
日志(100/100)= 0。
各种数学方法可以通过在文档总数中添加1来避免这些单词得分为零。结果仍然是一个无穷小的分数。
日志(101/100)= 0.004。
一个很少出现的单词,比如一百份文档中只出现了一份,得分会高得多。
日志(100/1)= 2。
停止或不停止单词
例如,为了避免零分,我们对预期的结果进行了调整。这就是你要用你的文档集合来测试和编辑你的搜索算法的工作,当你的集合发展到现代Web的规模时,你要不断调整以提高相关性,并弥补突然出现的垃圾邮件异常。
Pagerank有一个对数
猜猜还有什么算法沿着对数尺度给文档打分?谷歌的PageRank。
没错,谷歌的PageRank是Sparck Jones教授的tf*idf算法的直系后裔。这并不是说谷歌没有改变数学来适应它庞大的Web文档集合。毫无疑问,它已经发展到了如此复杂和高度工程化的程度。
用Gary Illyes的话来说:RankBrain是一个机器学习的排名组件,它使用历史搜索数据来预测用户最可能为一个未见过的查询点击什么。它经常解决谷歌在使用传统算法时遇到的问题。它为我们节省了无数的时间,每当传统算法遇到类似的情况时,例如:“哦,看查询字符串中的‘not’!”让我们忽略它吧!“它依赖于搜索结果页面本身的旧数据,而不是登陆页面。
这是坚实的建议站长忽略他所谓的“垃圾”组成所谓的停留时间,领域权威,点击率(搜索结果),等等,因为任何一个进取SEO试图证明有限的研究必然会失踪的几个重要因素,并不是可翻译给其他人。这个世界足够大,一群志同道合的人会聚集在一起,强化编造出来的废话。这是自然的。相反,他表示:“搜索比人们想象的要简单得多。”
剑桥大学计算机实验室凯伦·斯巴克·琼斯教授
斯帕克·琼斯教授的tf*idf在现代搜索
谷歌越来越复杂。这并不意味着你应该做SEO猜测工作。专注于制作有价值和独特内容的搜索引擎友好型网站。让tf*idf成为你的向导。搜索营销人员应该少担心如何确保特定的流行关键词出现在他们的页面上,而多考虑写独特的内容。谷歌在识别你自然会使用的单词方面变得越来越聪明。
集合中的知识领域分类、集合中的文档集、网站的分类、链接分析、网站用户、搜索用户——这些都源自Karen Sparck Jones的tf*idf,有趣的是,在实验中被修改为