多数SEO听说过使用日志文件来了解Googlebot的行为,但很少有人知道他们可以用来识别坏机器人抓取您的网站。越来越多,这些机器人都执行JavaScript,充气分析,获取资源和拼抢和复制内容。
该Incapsula 2014漫游器的流量报告看20,000点,历时90天期间网站(所有大小),发现机器人占全部网站流量的56%; 29%的人?恶意的性质。额外的洞察力表现?你建立你的品牌越多,大的?针对你成为。
虽然有服务,在那里,自动化远比此处显示的更先进的技术,本文意在(使用Excel)来了解使用日志文件的基础知识,在服务器级别阻挡坏机器人和清理一个简单的出发点分析报告。
所有服务器保持每个请求的列表中的网站,他们的主机。无论客户使用Firefox浏览器或由Googlebot正在寻找新创建的网页,所有的活动都记录在一个简单的文件。
这些日志文件的位置取决于服务器或主机,你有类型。这里是通用平台的一些细节。
的cPanel:? 为Apache主机公共接口(如下所示); 使得查找日志文件一样简单点击一个链接。
阿帕奇:日志文件在/ var / log和子目录通常发现; 此外,使用定位访问。日志命令很快就会发现服务器日志。
IIS:微软服务器“日志”可以启用和在Internet服务管理器配置。进入控制面板 – >管理工具 – > Internet服务管理器 – >选择网页 – >单击右键,然后属性 – >网站选项卡 – >属性 – >常规属性选项卡。
文件一旦被发现,整合,然后在Excel中(或您的首选方法)打开。由于一些日志文件的大小,这往往更容易做起来难。对于大多数小型到中型站点,使用一台计算机与大量的处理能力应足以。
下面, 。日志文件的手动合并成一个新的 。使用纯文本编辑器txt文件,然后在Excel中使用文本到列和“空间”分隔开了,一点点额外的净化得到列标题来排队。
巩固和打开登录后?在Excel中,这是很容易?找到命中的IP数。
去做这个:
创建数据透视表,看看客户端IP,并得到数。
复制和粘贴,重命名列标题到客户端IP和点击数,排序下降,最后插入一个用户代理列点击右侧。
作为识别潜在坏机器人的最后一步,找哪家用户代理与IP地址打你的网站最相关。要做到这一点,回到透视表和简单的添加用户代理的数据透视表的行标签部分。
现在,寻找具有最高触及IP相关的用户代理是那样简单文本搜索。在这种情况下,IP已经没有宣布用户代理(来自中国)和命中的网站上比其他任何IP 8万次以上。
现在,恶意IP已被确定,使用这些指令,以防止在分析数的通货膨胀,那么封锁该IP访问的?网站完全。
在谷歌Analytics(分析)使用过滤器,可以排除的IP。导航到管理 – >选择View(总是一个好主意,做这样的改变时,创建新视图) – > ?过滤器 – > 新过滤器 – >预定义 – >从IP地址排除交通 – >指定IP(正则表达式)。
提示:由IAB(对于非会员$ 14,000个值)标识谷歌Analytics(分析)会自动阻止已知的爬虫。只要浏览到管理 – >视图设置,并根据它说:“漫游器过滤,”?从已知漫游和蜘蛛选中“排除所有命中。“它总是创建之前改变配置文件设置一个新的视图中的最佳实践。
如果您使用的Omniture,有三种方法?排除IP数据。
通过IP排除。从多达50个IP地址不包括命中。
Vista的规则。?对于需要超过50家公司。
处理规则。?它可以创建一个规则,以防止显示来自特定IP地址的数据。
以查明该日志文件位于类似,从服务器级别访问您的网站屏蔽IP地址的方法的变化取决于您使用的服务器类型。
的cPanel:使用IP地址拒绝管理,IP地址可被封闭,在现有基础上管理。
阿帕奇:mod_authz_host是此推荐的模块,但 。htaccess的也可以使用。
IIS:? 打开IIS管理器 – >功能视图 – > ?IPv4地址和域限制 – >操作面板 – >添加拒绝入境。
第三方解决方案的路线,通过网络的所有流量,以实时识别机器人(好的和坏的)。他们不只是看IP和用户代理字符串,而且HTTP头,导航网站的行为以及其他许多因素。有些网站使用的是像reCAPTCHA的方法,以确保他们的网站的访客是人类。
你有没有听说过有什么其他方法可以帮助防止“坏机器人的崛起?“
在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。