好大夫在线 上海分析抓取数据时,不要低估了先进的滤波电源

  而帮助客户应对主要算法更新,解决技术问题SEO多,我经常审计大型网站。 那?几乎总是需要一个彻底的网站抓取?(超过接合的寿命通常为若干抓取)。而当你追捕SEO小鬼,可以在一个网站上肆虐,它是对切片和切块是抓取的数据,以便集中分析非常重要。

  有了良好的数据过滤,你可以经常浮出水面页面类型,部分或子域?这可能会导致严重的问题。一旦浮出水面,你可以重分析这些领域,以便更好地了解需要固定工作的核心问题,然后地址。

  从履带的角度来看,我已经介绍过我的两个最爱在这里搜索引擎土地,DeepCrawl和尖叫青蛙。两者都是优秀的工具,我通常在使用尖叫青蛙手术爬网,这是更注重使用DeepCrawl企业抓取。(注:我对DeepCrawl的客户咨询委员会。)在我看来,使用DeepCrawl和尖叫的组合青蛙是杀手,我常说,1 1 = 3使用这两种工具在一起的时候。

  下面,我会在这两种工具使用过滤的几个例子,所以你可以去感受什么,我指的是。通过筛选抓取数据,你就可以准备进行进一步分析网站的分离和表面特定区域。你开始这样做之后,你将永不回头。让我们摇滚。

  可转位的网页

  让我们先从基本的,但重要的过滤器。内容质量问题可以在几个层次上极大的问题,你一定要确保这些问题上不存在可转位的网页。当谷歌评估从质量角度站点,它需要你的整个网站考虑。这包括每一个编入索引页。下面是从约翰·米勒解释说,视频。

  因此,当你面网站上的问题,这是伟大的可转位的URL过滤该列表,以您的分析重点放在可以伤害你的网站质量明智页。而且我不是说忽略其他URL,因为他们没有被编入索引! 你绝对应该照顾他们,太。请记住,用户与网页互动,而你不希望用户不满意。这只是聪明到可以挖掘到的内容和/或其他质量问题时,被编入索引的网页分离。

  薄含量 正则表达式页面类型=?真棒

  对于那些你们谁爱正则表达式,我有好消息。DeepCrawl支持先进的过滤正则表达式。所以,你可以选择一个过滤器,然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些手术滤波。顺便说一句,它的真棒有一个“不匹配正则表达式”过滤器开始淘汰网址?要排除与包括。

  例如,让我们从简单的开始使用管道字符到三个不同的目录,在过滤器中结合。一种管字符表示“或”在正则表达式。

  或者说,怎么样排除特定的目录,然后为此专注于网址只有两个或三个字符(这是我的网址的实际例子?认为特定的审计期间是从内容的角度来看有问题的):

  或者说,怎么样用字混合正则表达式的页面类型计数通过页面类型或目录,以确定真正的薄页? 这就是为什么过滤是如此的强大(和节省时间)。

  你得到的图片。您可以包含或排除任何类型的网址?或者你想要的图案。你可以在过滤层,以磨练自己的报告。这是惊人的聚焦大型爬网。

  典型问题:响应头

  去年我写了一篇有关如何检查的X-Robots-Tag中来解决潜在的危险机器人的指令(因为它们可以交?经由头响应交付并是不可见的肉眼)。在大型站点,这可能是极其险恶的,因为网页可能被错误地noindexed时,他们表面上看起来罚款。

  那么,你可以通过头部响应设定相对规范的,太。而这可能会导致一些奇怪的问题(可以驱动你疯了,如果你不知道相对规范如何被设定。),并在某些情况下,你可以用多个规范标签为这样的一个URL?(一个通过头响应和在html一组)。发生这种情况时,谷歌可以忽略所有的规范标签,在他们的博客帖子大约有相对规范的常见错误解释。

  通过检查“的页面无有效的规范标签”的报告,然后由两个相对规范的标头URL过滤?和相对规范的HTML网址,你可以表面有这个问题的所有URL。然后你就可以在你的开发团队挖掘,以确定为什么这是发生代码明智。

  在URL中找到! 确定的链接错误源

  你会无疑是一个大型爬行期间在抓取错误来(如404,500S等)。只要知道经常返回错误的网址是不够的。你真的需要跟踪,其中这些网址被来自全国各地的网站链接。

  要解决大规模问题,而不仅仅是一次性的。要通过“在发现”为此,过滤器?从任何的检索错误报告的URL(或从非200报告)。然后你可以使用正则表达式来面页面类型和/或目录可能被大量链接到的网页即返回抓取错误。

  仔细检查AMP网址:所有相对链接

  使用加速移动页(AMP)? 仔细检查你在你的HTML通过相对= amphtml引用的URL,您可以检查由amphtml“所有相对链接”的报告和过滤器。然后你就可以申请另一个过滤器“网址”,以确保这些都是您要引用真正放网址。再次,这是如何筛选可以发现坐在地面以下险恶的问题只是一个简单的例子。

  下载过滤CSV

  我公司提供以上的DeepCrawl分析抓取数据时,你可以用先进的过滤做了几个例子。但是,当你要导出的数据是什么? 既然你做了这样一个伟大的工作,筛选,你绝对不希望失去过滤后的数据导出时。

  出于这个原因,DeepCrawl是否有“生成经过滤的CSV强大的选项。“通过使用此功能,您可以轻松地仅导出过滤后的数据对事情的方方面面。然后你就可以在Excel中进一步分析或发送给你的团队和/或客户端。真棒。

  对于尖叫青蛙,过滤器是不够健壮的,但你可以在UI还是过滤数据的权利。很多人不知道这一点,但是正则表达式在搜索框支持。所以,你可以直接在尖叫青蛙使用任何你正在使用的DeepCrawl(或其他地方)来过滤网址的正则表达式的报告类型。

  例如,检查响应代码,想要快速检查通过目录这些URL? 然后用管道符包括特定类型的页或目录(或模式)。你会看到基于正则表达式的报告变化。

  你可以利用你自己的过滤的预过滤的报告,然后层。例如,您可以检查长标题的网页,然后筛选使用正则表达式开始浮出水面特定页面类型或模式。

  和过滤器适用于所有列! 所以,你可以使用正则表达式的任何特定报告中所列的列。例如,下面我开始与包含规范网址的所有URL?标签,然后我浮出水面使用含有元robots标签的URL“NOINDEX。“

  如果URL?是noindexed,那么它不应该包含规范网址?标签(两个不利于彼此)。相对规范的告诉引擎,是首选的网址?索引,而使用NOINDEX元robots标签告诉引擎不要索引网址。这是没有意义的。这是一个公正的,你可以在尖叫青蛙过滤做一个简单的例子。注:尖叫青蛙有一个“经典错误”的报告,但是这是一个快速的方法来过滤用户界面中的表面问题。

  从出口的角度来看,您可惜不能只导出过滤后的数据。但是,您可以快速复制和粘贴筛选的数据导入Excel。谁知道,也许过在尖叫青蛙将建立一个“出口过滤数据”选项,聪明的人。

  我花了很多时间检索网站和分析检索资料,我也没有足够的强调滤波电源。而当你添加正则表达式的支持,你可以真正开始切片和以表面的潜在问题切割你的数据。而就能越快表面问题,就能越快解决这些问题。这对于成千上万的大型网站尤其重要,几十万,甚至上百万的页面。所以请继续 。。。过滤掉。

  在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。

发表评论

滚动至顶部