数字化技术 – 和消费者都在使用它的方式 – 是不断发展的步伐从未有过的,并通过数字营销所使用的平台和工具,试图跟上它的所有。
大家都知道的内容依然为王。为了赢得消费者的注意力,或谷歌的排名争夺战,你需要提供高质量的内容和它的地段。(见我的文章,3个技巧击败音量游戏中,?在海量的互联网内容进行深入讨论?发展。)
为了满足这种需求永无止境,内容管理系统和平台已经取得了发展,并允许灵活和动态的创建和内容部署。当你采取任何SEO建议,提炼它,会出现一条消息:“建立多页。“
这使我对这篇文章的根源 – 在企业级的世界里,网站的网页数量已经成为无限的执行SEO审计。
简单地说,网站正在变得越来越大,搜索营销必须以动态生成的页面,主详细套,在线目录,电子商务网页,产品评论,购物车,动态对比页面,针对移动设备的内容,标签和读取工作 – 更多的链接,使得网页扶摇直上的平均数。
走来谁使用必须优化50页,并认为这是挑战搜索营销; 现在我们正在寻找在成千上万的网页,进行技术审核时产生巨大的技术和资源挑战。
首选技术审核我们的抓取工具尖叫青蛙。这是一个惊人的计划,将在眨眼的细节和灵活性的一个令人难以置信的水平进行任何技术SEO审计。然而,像任何桌面审计工具,它具有由一个简单的事实,它是一个桌面应用程序四大局限。
内存限制:?桌面履带由的内存量在用户的机器上的限制。当您在大型网站用10k 网页运行审计,履带模具非常迅速,由于内存限制。
定时:?当计算机开启时,台式机履带只能运行。阻止您运行自动抓取或问题主动监控。
建筑:?桌面爬虫是相当平坦,不使用智能数据库文件的存储应用。这意味着你不能创造他们周围的规则(例如:如果错误#> 500 =发送电子邮件)。
合作:?所有这些结果坐本地驱动器上,位于和可用一台机器上; 有没有办法协作,共享和协同工作,对审计。
注意:这并不意图是DeepCrawl(下面描述)和尖叫青蛙之间的比较; 他们都有自己独特的优势和应用,我们利用他们两个严重。
我们的目标是评估多种不同的解决方案,使我们在更大的规模进行技术审核。我们排除任何的“套房”供应商,因为我们有非常具体的需求和希望的合作伙伴纯粹专注于审计,而不是一个等级的工具,也做XYZ。
我们遇到DeepCrawl。DeepCrawl是一种基于服务器的解决方案,所以它删除所有你与桌面审计工具体验的局限性 – 它可以在任何时间运行,以及计算机内存的大小并不重要。
此外,DeepCrawl是,还提供了应用程序中的全功能的API的唯一工具; 这允许我们管理网站,开始爬网,并在可扩展性和自动化的方式收到成效。
今天,我想我们如何使用这个工具,与大家分享,以及如何可以得到相当迅速地开始用它。
您创建一个帐户,并获得基本建立后,你可以创建你的第一个爬。之一的DeepCrawl的有趣特征是从多个供给它输入比单个源的能力。大多数爬虫让你选择一个方法(站点地图,爬行,列表等。)但在DeepCrawl,你可以进行一次“普遍爬行”; 这从诸如同时收集信息:
站点地图。XML
URL的自定义列表
手动抓取(它会做)
谷歌分析
我真的很喜欢这种做法,因为它可以确保我们还爬着和监测PPC登陆页面,活动页面和未公开链接的任何其他内容。
在DeepCrawl配置选项是非常灵活。有一吨他们,所以一定要确保你只抓取你想要什么。您可以定义的东西,如:
抓取深度
页面限制
正则表达式规则
网址采样
变量排除
基于地理位置的爬行(移动,美国,地方等。)
临时服务器(特殊需要的URL授权)
使用自定义URL重写
以及更多
作为DeepCrawl是SaaS(软件即服务)模式,您每次抓取的网址付出,所以它的重要创建配置时,所以你只需支付要审计的URL要小心。
根据网站和选项的大小,实际爬行可以采取相当长的时间来执行。目前,我们正在使用DeepCrawl与500K 网页的网站,它可以休息几天。一旦检索完毕后,你就会有一个非常完整的报告中提出,如下面所示的。
虽然DeepCrawl是一个伟大的多用途履带式和审计工具,事实上,它是数据库驱动的和非常灵活的允许一些相当有创造性“的黑客。“下面是一些我最喜爱的用途吧。
DeepCrawl和其他基于服务器的审计工具的一个很大的特点是能够在设定的时间间隔时间表爬网(每日,每周,每月等。)。无论您是在社会,SEO还是SEM,我们都知道,页断或遭到移除,而我们是最后的知道。您可以配置DeepCrawl通知你的任何变化; 这样,你知道当一个页面下来,可以采取行动。
什么是我们的竞争对手在做? 他们在开发新内容? 这是一个问题,我们不能总是回答没有大量的手工研究。这是一个完美的使用情况DeepCrawl的对比报告。
建立每周报告来监控您的竞争对手; 当他们添加新的页面,你会收到一封电子邮件,你将永远知道自己在做什么,并获得他们的数字化战略更好地理解。
一个项目经理的梦想成真。在DeepCrawl,您可以为需要做出变化(创建门票例如:修复损坏的链接,缺少规范等。); 然后,每个DeepCrawl运行其审核时间,它会检查并通知你,如果他们已经实施或不。
作为一个额外的好处,它保持一个历史,所以如果将更改完成,但接下来的服务器部署过程中被覆盖,你就会知道,以及。
这种先进的功能,允许您分析扫描页面的原始HTML的代码,并检查是否有特定的值。这将增加额外的深度数据。
举个例子,你可以收集每个页面的社会信号,以便优先优化。您可以了解更多有关这个过程在这里。
我希望这给你的能力是一个好主意和服务器端审计工具功能。说实话,在我的工作,我不能没有它了。?我认为这就是真正的创新在于 – 如何利用现有的工具和技术,以做出更好的影响和带来更出色的结果。
如果你正在使用这样的工具,我想听听你已经发现了它的一些其他创造性的使用情况。
使用存在Shutterstock的许可库存图片。com
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。