使用Apriori算法和BERT嵌入来可视化搜索控制台排名的变化洛奇英雄传多玩-顶级复刻表

SEO面临的最大挑战之一就是专注。我们生活在一个数据的世界里，使用完全不同的工具，这些工具可以很好地完成各种事情，也可以不太好地完成其他事情。我们有数据从我们的眼球中出来，但是如何精炼大数据使其变得有意义。在这篇文章中，我将新旧结合在一起，创造出一个对某些东西有价值的工具，我们SEOs一直都在这样做。关键字分组和变更审查。我们将利用一个鲜为人知的算法，称为Apriori算法，以及BERT，来产生一个有用的工作流程来了解你在三万英尺高空的有机可见性。

什么是Apriori算法

Apriori算法由RakeshAgrawal和RamakrishnanSrikant在2004年提出。本质上，它被设计成一种用于大型数据库的快速算法，用于发现数据行的组成部分(称为事务)之间的关联/共性。例如，一个大型电子商务商店可以使用这种算法来查找经常一起购买的产品，这样当购买集合中的另一个产品时，他们可以显示相关联的产品。

几年前，我在一篇文章中发现了这个算法，并立即发现了它与帮助在大量关键字组中找到独特模式集的联系。从那以后，我们转向了语义驱动的匹配技术，而不是术语驱动的，但这仍然是我在第一次遍历大型查询数据集时经常用到的算法。

交易

1技术搜索引擎优化

2 seo技术代理

3 seo机构

4技术机构

5机车seo机构

6机车机构

下面，我使用Annalyn Ng的文章作为重写Apriori算法支持的参数定义的灵感，因为我认为它最初是以一种直观的方式完成的。我将定义转换为与查询相关的，而不是与超市事务相关的。

支持

支持度是对术语或术语集流行程度的度量。在上表中，我们有6个独立的标记化查询。6个查询中有3个支持“技术”，即50%。类似地，“技术seo”的支持率为33%，在6个查询中占2个。

信心

信心显示了在一个查询中词语一起出现的可能性。它被写成{X->Y}。只需将对{term 1和term 2}的支持度除以对{term 1}的支持度即可计算。在上面的例子中，{technical->seo}的置信值为33%/50%或66%。

电梯

Lift与confidence类似，但它解决了一个问题，即真正常见的术语可能会人为地夸大confidence得分，这种计算基于的是它们与其他仅仅基于使用频率的术语出现的可能性。例如，升力的计算方法是将{第1项和第2项}的支撑力除以(第1项的支撑力乘以第2项的支撑力)。值为1表示没有关联。大于1的值表示这两个词有可能同时出现，而小于1的值表示它们不可能同时出现。

利用先验进行分类

在本文的其余部分中，我们将跟随Colab笔记本和相应的Github回购，其中包含支持该笔记本的附加代码。Colab笔记本在这里。Github回购被称为QueryCat。

我们从谷歌搜索控制台(GSC)的标准CSV开始，比较，28天的周期查询。在笔记本中，我们加载Github repo，并安装一些依赖项。然后导入querycat并加载包含从GSC输出数据的CSV。

点击放大

现在我们有了数据，我们可以使用querycat中的Categorize类来传递一些参数并轻松地找到相关的类别。最有意义的参数是“alg”参数，它指定要使用的算法。我们同时包含了Apriori和FP-growth，它们都有相同的输入和相似的输出。fp增长算法被认为是一种更有效的算法。在我们的使用中，我们更喜欢Apriori算法。

要考虑的另一个参数是“min-support”。这本质上是指一个词在数据集中出现的频率，从而被考虑。这个值越低，您将拥有的类别就越多。数字越高，类别就越少，而且通常会有更多没有类别的查询。在我们的代码中，我们指定没有计算类别的查询，使用类别“##other##”

剩下的参数“min_lift”和“min_probability”处理查询分组的质量，并给出术语一起出现的概率。它们已经被设置为我们找到的最佳一般设置，但可以在更大的数据集上根据个人喜好进行调整。

点击放大

您可以看到，在总共有1364个查询的数据集中，该算法能够将查询分为101个类别。还要注意，该算法能够选择多单词短语作为类别，这就是我们想要的输出。