西安市会计网与Gephi PageRank和网页组的简易可视化

  在去年四月,Search Engine Land的贡献者?保罗·夏皮罗写下辉煌的职位上计算内部的PageRank。概括的方法后看一个网站的内部链接,以确定在网站内的网页的重要性。

  这是令人惊讶的强大,但我认为保罗的概念可以更加人性化。他用R,这是用于统计计算语言和环境,并且输出基本上是一堆数字。

  我想告诉你如何与几个按钮推动一串代码,而不是做同样的Gephi?- 而且,多带几个点击,你可以在一个方式可视化数据,你会自豪地向客户展示。

  我会告诉你如何得到这个结果作为Gephi如何可以在你的SEO工作有用的例子。您可以看到哪些页面上你的网站的网页最强,确定如何页面可以按主题进行分组并确定一些常见的网站问题,比如抓取错误或内部连接不佳。然后,我将介绍一些想法采取概念geekery的一个新的水平。

  Gephi?是用于图形网络和常用免费的开源软件?代表计算机网络和社交媒体网络。

  这是一个简单的,基于Java的桌面程序,在Windows,Mac或Linux上运行。虽然Gephi的当前版本为0.9。1,我建议您下载以前的版本,0.9。0,或更高版本的?0.9。2,代替。这样,你就可以在这里跟着一起,你会避免的当前版本的错误和头痛。(如果你最近没有做这件事,你可能需要安装Java到您的计算机,以及。)

  我通常使用尖叫青蛙爬行。由于我们感兴趣的是这里,而不是网页的其他文件,你需要排除?事?从抓取数据。

  要做到这一点,那些有软件的付费版本应该实现的设置,接下来我将介绍。(如果你使用的是免费版,这限制了你收集500个网址,并且不允许你来调整尽可能多的设置,我将解释以后怎么办。)

  进入“配置” – >“蜘蛛”,你会看到类似下面的屏幕截图。让你的搭配我的最好的结果。我也常添加 。*(PNG | JPG | JPEG | GIF | BMP)$“配置” – >“排除”摆脱图像,尖叫青蛙有时叶子在爬行报告。

  要开始检索,把你的网站的网址进入该空间在左顶部(下图)。然后点击“开始”,等待抓取到结束。

  当你的爬网完成后,转到“批量导出”>“所有的反向链接。“你要更改”文件类型“为”。CSV“,并保存文件。

  删除包含“所有反向链接的第一行。“

  删除第一列,“类型。“

  重命名“目的地”一栏为“目标。“

  删除所有其他列除了“源”和“目标。“

  保存文件?(再次检查,以确保文件类型为 。CSV)。

  或者,你可以离开其他列像状态码或锚文本,如果你想这样的数据对你的图。主要的两个领域,我会解释如何使用?是“源”和“目标。“

  如果您使用尖叫青蛙的免费版本,你需要做大量的清理工作,以过滤掉图像,CSS和JavaScript?档。

  在Excel中,如果你去到“插入”,然后单击“表格”,你会得到一个弹出。确保您的数据已正确定义,点击“我的表有头”,然后点击确定。现在,选择在“目标”栏右上角的箭头,会出现一个搜索框。用它来过滤表确定包含扩展为不同的文件类型,如行 。JS?要么 。CSS。

  一旦你得到了所有具有一个问题的文件类型的表行的视图中,选择并删除所有的信息,这些行。这样做对上述各个文件类型的任何图像文件类型?如 。JPG, 。JPEG, 。PNG, 。GIF, 。BMP或其他任何。当你完成,你需要将文件保存为一个 。再次CSV。

  在弹出屏幕出现当您打开应用程序,请单击“新建项目。“

  然后选择“文件”>“导入电子表格。“

  选择你的 。CSV文件,并确保“分隔符”设置为“逗号”和“作为表”设置为“边线表。“如果你不得不做大量的Excel数据清理,确保你已经导入之前消除您的数据中的任何空白行。

  点击“下一步”,并确保“创建缺少的节点”打黑“完成之前检查。“

  对于我们的目的 – 可视化的内部链接 – 在“边缘”的内部链接,而“节点”是网站上的个人网页。(注:如果您在一个内存错误绊倒,你可以按照本指南操作增加的Gephi分配的内存量。)

  如果你有一个非常大的数据集或希望将多个数据集相结合,可以导入多个文件到Gephi。

  一旦所有的数据都在“数据实验室”,就可以切换到“概览。“在这里,你可能会看到一个黑盒子类似下面。别担心,我们会做漂亮的一分钟。

  在“统计”选项卡上,运行“的PageRank”和“模块化。“(选择”窗口“和”统计“如果你看不到”统计“选项卡。)

  我推荐使用PageRank的默认设置,但对于模块化我将取消选中“使用权。“?这将追加约在新列:您的网页将用于可视化数据。

  您可能需要运行模块化几次得到的东西,你想要的方式。被更多地彼此连接成模块化组模块化簇网页或类(每个由数字表示)。您将要形成的页面是足够大是有意义的,但小的足以让你的头部周围组。

  你集群,毕竟,所以把所有页面分成两个或三个群体的大概带来了很多不同的东西放在一起。但是,如果你有200团结束了,那是不是所有的有用的,无论是。?有疑问时,瞄准更高的组数,因为许多团体将可能是非常小,?主要分组仍应被揭示。

  别担心,我会告诉你如何检查,并在短短一分钟调整你的组。(注:较低的模块化会给你更多的团体和更高的模块化会给你少群。通过分数,而不是整数调整这个,作为一个小的变化产生很大的差别。)

  让我们来看看有什么我们做了。更改标签为“数据实验室”,并期待在“数据表。“在那里,你会发现PageRank和模块化类新列。PageRank的数字应该排队与保罗·夏皮罗的文章中提到的数字,但你得到了这些,而无需做任何编码。(请记住,这些是内部的PageRank数字,而不是我们通常所说的“的PageRank。“)

  模块化甲级号分配给每一页,使高度互联的网页获得相同数量的。在隔离每个页面组的右上角使用过滤器功能,以及眼球一些网址,看看如何接近这些都是被相关。如果页面错误的模块化班结束了,你可能需要调整您的设置,或者它可能表明你没有做好互连相关内容。

  记住,你的模块化是基于内部链接,而不是实际上在页面上的内容,所以它的识别那些通常被连接在一起 – 而不是那些应该被连接在一起。

  就我而言,我选择了一家律师事务所,并使用默认设置,我结束了以下故障时,我的排序条件为模块化,这我可能有更好的进行一些调整取得:

  类0 =损伤

  类1 =家庭

  2级=一些随机的网页

  3级=犯罪

  4类=交通

  类5 = DWI

  6级=一对夫妇随机页面

  你可以回去了“概览”选项卡,并继续进行调整,直到你满意你的网页组。?即使是同一个号码,模块化运行多次,每次可产生略微不同的结果,所以它可能需要一些玩耍去的地步,你是满意的结果的点。

  我答应你的可视化早期,当我们到达那个部分,你可能想知道。让我们把那黑色方形变成真正的可视化效果更容易理解。

  转到“概览”>“布局。“在左侧的下拉框,它说:” – 选择布局“选择” ForceAtlas 2。“

  现在你只需要修改其设置,直到你得到一个可视化你舒服到。(如果你迷路了,点击小放大镜?在图像的左侧图像,以及将中心和大小的可视化,因此在屏幕上的所有可见。)对于上面的星形图案,我已经设置“缩放” 1000和“重力”为0.7,但其余的都是默认设置。主要的两个?设置你可能会玩弄的缩放和重力。

  缩放约束您的可视化的大小; 它被设置越高,越稀疏的图形会。了解引力最简单的方法是考虑节点的类地行星。当您打开重力,这一切拉靠得更近。您可以通过检查“做强重力”框,通过调节重力数调整此。

  还有一些其他的选择,以及各自的作用在界面中解释。不要犹豫,玩弄他们(你可以随时切换回),看看是否任何帮助?使可视化更加清晰。

  在我们的例子情况下,我们要同时显示模块化(页组)和内部的PageRank。要做到这一点,我发现最好的办法是调整基于模块化基于PageRank的节点和颜色的大小。在“外观”窗口中,选择“节点”?“大小”(第二个图标),并在“排名”选项卡中,其中有一个下拉菜单“选择属性”,选择“网页级别。“

  选择一些尺寸和打“应用”,直到更重要的节点是从相互区分。在下面的屏幕截图,我最小尺寸设定为100和1000的最大尺寸。设置节点的基于PageRank的大小可帮助您轻松识别重要页面上你的网站 – 他们是更大。

  对于可视化页面组?与模块化,我们还是会希望在“外观”窗口,但这次我们要选择“颜色”(第一个图标),“节点”和“分区。“在用于下拉”选择属性“选择”模块化类。“

  某些默认颜色填充,但是如果你想改变他们,有一个蓝色的小链接“调色板。“在Palette,如果你点击”生成“,您可以指定的颜色数显示基于你有多少组了运行时的模块化。

  在我的情况下,2级和6都不是很重要的,所以我点击他们的颜色和他们更改为黑色。如果你想只显示一个特定的主题,而保留其他为另一种颜色只改变一个模块化类的颜色。

  你不妨标记节点,以便我们知道他们代表什么页面。为了与URL添加标签,我们需要回到“实验室数据”选项卡,选择数据表。有在底部的盒子“将数据复制到另一列,”我们要复制“ID”到“标签”来获得的URL显示。该过程是类似的边。如果您保存从爬行的锚文本,你可以标记与锚文本的每个边缘。

  回到“预览”选项卡上,你要选择你希望你的可视化,以显示。我通常选择“默认弯”的预设下,但很多人喜欢“默认直。“

  更改字体大小和比例大小的标签将帮助他们可以在不同的尺寸可以读取的方式显示。只是玩弄在预览选项卡上的设置,以获得它显示你所希望的方式。

  对于下面的可视化,我已经关闭的节点和边缘标签,这样我不放弃我已经使用了特定的律师事务所网站的身份。在大多数情况下,他们已经做得很好分组自己的网页和链接内部。如果我从尖叫青蛙留在电子表格中的锚文本列,我曾与它的锚文本为边缘标签,并从(圆圈)连接每一页显示的每个内部链接(线)为节点标签。

  对于更大的数据集,你仍然可以使用Gephi,虽然你的图形可能会看起来更像是一个星图。我绘制了Search Engine Land的内部链接,但我不得不调整缩放比例,以5000和重力为0.2在ForceAtlas 2设定。

  您仍然可以运行PageRank和模块化计算,但是你可能需要到节点尺寸更改为巨大看到任何数据上的图形。您可能还需要更多的颜色添加到调色板,如前所述,因为有可能有更多独特的模块化课程在这种规模的数据集。这就好比着色之前什么SEL的图形外观。

  Gephi可以用来显示各种问题。在一个我张贴之前回到我的SEO文章的未来,我发现之间的HTTPS和HTTP分裂。

  此外,它可以发现其可以通过客户端来考虑的重要部分?未内部连接非常出色。通常情况下,这些都是在可视化更远由于重力作用,而且您也可以从相关的专题网页想链接到他们。

  这是一两件事要告诉你需要更多的内部链接客户端,但它是一个更容易向他们表明,他们认为重要的网页实际上是极为孤立。下面的图片是由简单的创建?改变我的模块化,直到我只有两个组。?这是因为我在我的抓取HTTP和HTTPS链接,我减少了模块化,直到我只有两个?基团,其中最相关的,其中是HTTP> HTTP?页面和HTTPS> HTTPS?网页。

  有很多其他的事情?这种类型的可视化可以线索你进入。?通过自己看起来单个节点的出。您可能会发现吨稀疏的页面,甚至抓取错误。?蜘蛛陷阱可能显示为一种页无限线,那是不正确的分组页面可能意味着你不从内部与最相关的网页联系起来。

  一个良好的内部链接网站可能看起来更像一个明星了一圈,我不会考虑这个,即使颜色不组始终一致的问题。你要记住,每一个网站都是独特的,每个可视化是不同的。

  这是很难解释所有的可能性,但如果你尝试一些这些,你就可以看到常见的问题,或者甚至一些新的和不同。这些可视化?将让你帮助客户了解问题,你总是谈论。?我答应你,你的客户一定会喜欢他们。

  Gephi有一些导出选项 。PNG, 。SVG或 。PDF格式?如果你想?创建静态图像。更有趣的是?出口的网页上使用,让您创建一个互动体验。要做到这一点,检查出Gephi?插件?- 特别是,SigmaJS出口商和Gexf-JS Web查看器。

  如果你有一个爬行器可以识别的链接的位置,你可以调整你的边缘不同的基础上,权重?链接的位置。说,例如,我们给每个主要内容链接相比更高的值,比如说,导航或页脚链接。这使我们能够改变基于链接的权重内部的PageRank计算由它们的位置确定。这将有可能展现出更加准确的表示,以谷歌如何根据自己的位置很可能是估价的链接。

  这使我们能够改变基于链接的权重内部的PageRank计算由它们的位置确定。这将有可能展现出更加准确的表示,以谷歌如何根据自己的位置很可能是估价的链接。

  我们一直在努力迄今的可视化是基于内部的PageRank计算,假定所有的页面在开头相同的权重。我们知道,当然,这不是谷歌着眼于事物的方式,因为每个页面将具有不同强度,类型和相关性,从外部网站将它们链接。

  为了使我们的可视化更加复杂的和有用的,我们可以改变它在第三方力量的指标,而不是内部的PageRank拉。有许多的这些信息不同的可能来源,如万盎司页管理局,Ahrefs URL评级,或大气磅礴引用流量或信托流量。所有这些应该工作,所以选择自己喜欢的。结果应该是网站的一个更准确的表示搜索引擎认为它,因为我们现在考虑的页面的帐户实力。

  我们可以用我们上面创建以显示内部的PageRank相同的文件启动。在Gephi,我们要进入“数据实验室”选项卡,并确保我们在“节点”选项卡。有一个“导出表”选项,您可以将列导出到 。您选择的csv文件。在Excel中打开该导出的文件,并创建一个新列你想与任何名称。我碰巧把它称为“CF”?因为我在我的例子使用大气磅礴引用流量。

  现在,让我们纳入第三方数据。在从Gephi导出的电子表格I,I已经从庄严复制的数据,其具有在所述第二在一列中的页面和引文流。现在,我们需要这个数据嫁给第一个,你可以使用VLOOKUP公式做到这一点。

  首先,选择大气磅礴的数据 – 两列 – 并使其成为一个命名的范围。要做到这一点,去插入下拉菜单,选择名称。从那里,选择“定义”选项,并命名您的庄严数据范围不管你喜欢。在我们的例子中,我们把它叫做“群英会。“

  然后回到“CF”列中的原始数据集。单击第一个空白单元格,然后键入= VLOOKUP(A2,雄伟,2,FALSE),然后按“Enter”键键盘上。通过这归因于所有其他“CF”条目复制双击框的右下角的小广场。此公式使用数据在列A – 的URL – 作为一个键,则它在大华数据匹配到相同的URL。接下来到了大气磅礴数据的下一列 – 我们正在寻找外部的PageRank数据 – 并将其拉入CF列。

  接下来,你要点击列字母在CF列的顶部列选择一切。按下“Ctrl C”复制,然后右键单击并转到“选择性粘贴” ?弹出,然后选择“价值观在菜单上。“这与实际数字来代替我们的公式。我们现在可以删除了我们的第三方数据的范围,并再次保存我们的文件作为 。csv。

  早在Gephi并在“数据实验室,”我们要点击“导入电子表格”,以拉在上表中我们只是做。选择 。csv文件创建。这一次,不像前面的步骤,我们要改变“为表”到“节点表。“点击”下一步“并确保”强制节点作为新的要创建“未选中,然后点击”完成。“这应该与我们修改后的表,其中包括CF更换节点的数据表。

  在应用程序屏幕的底部,你会看到 ?为“数据复制到另一列的按钮。“我们只是要选择” CF“和”复制到“我们要选择”的PageRank。“现在,而不是产生内部的PageRank数据,我们使用的是第三方外部的PageRank数据。

  早在“概述”选项卡中,我们要“外观”下的样子,然后点击“应用”再一次。现在我们的节点应该根据我们的大气磅礴CF数据相对强度的大小。在我下面的图表中,你可以看到这是在网站上最强的页面,考虑到页面的强度的外部措施。

  你可以只从这个图像说出一大堆。当您打开的标签,就可以看到哪些页面每个圆圈代表。颜色指示哪些分组,和圆大小指示该页的相对强度。

  进一步的这些点是,少内部链接的页面。您可以通过每种颜色的节点数目告诉哪些类别的客户创造了最内容,哪些已经成功为他们在吸引外部链接。举例来说,你可以看到有很多紫色的圆点,说明这很可能是为公司的重要业务领域,他们正在创造大量的内容周围。

  问题是,大紫点是远离市中心,这表明他们没有得到很好的内部连接。如果没有给予太多了,我可以告诉你,许多远了点的博客文章。虽然他们做了很好的工作,从博客到其他页面的链接,他们做推广他们的博客文章在网站上的不良工作。

  我希望你有你自己的数据一起享受游戏和已经得到的Gephi如何帮助您直观重要的可操作的数据为自己和你的客户的良好意识。

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部