百度seo建议3个步骤发现和屏蔽不良搜索引擎-顶级复刻表

　　多数SEO听说过使用日志文件来了解Googlebot的行为，但很少有人知道他们可以用来识别坏机器人抓取您的网站。越来越多，这些机器人都执行JavaScript，充气分析，获取资源和拼抢和复制内容。

　　该Incapsula 2014漫游器的流量报告看20，000点，历时90天期间网站（所有大小），发现机器人占全部网站流量的56％； 29％的人？恶意的性质。额外的洞察力表现？你建立你的品牌越多，大的？针对你成为。

　　虽然有服务，在那里，自动化远比此处显示的更先进的技术，本文意在（使用Excel）来了解使用日志文件的基础知识，在服务器级别阻挡坏机器人和清理一个简单的出发点分析报告。

　　所有服务器保持每个请求的列表中的网站，他们的主机。无论客户使用Firefox浏览器或由Googlebot正在寻找新创建的网页，所有的活动都记录在一个简单的文件。

　　这些日志文件的位置取决于服务器或主机，你有类型。这里是通用平台的一些细节。

　　的cPanel：？为Apache主机公共接口（如下所示）；使得查找日志文件一样简单点击一个链接。

　　阿帕奇：日志文件在/ var / log和子目录通常发现；此外，使用定位访问。日志命令很快就会发现服务器日志。

　　IIS：微软服务器“日志”可以启用和在Internet服务管理器配置。进入控制面板 – >管理工具 – > Internet服务管理器 – >选择网页 – >单击右键，然后属性 – >网站选项卡 – >属性 – >常规属性选项卡。

　　文件一旦被发现，整合，然后在Excel中（或您的首选方法）打开。由于一些日志文件的大小，这往往更容易做起来难。对于大多数小型到中型站点，使用一台计算机与大量的处理能力应足以。

　　下面，。日志文件的手动合并成一个新的。使用纯文本编辑器txt文件，然后在Excel中使用文本到列和“空间”分隔开了，一点点额外的净化得到列标题来排队。

　　巩固和打开登录后？在Excel中，这是很容易？找到命中的IP数。

　　去做这个：

　　创建数据透视表，看看客户端IP，并得到数。

　　复制和粘贴，重命名列标题到客户端IP和点击数，排序下降，最后插入一个用户代理列点击右侧。

　　作为识别潜在坏机器人的最后一步，找哪家用户代理与IP地址打你的网站最相关。要做到这一点，回到透视表和简单的添加用户代理的数据透视表的行标签部分。

　　现在，寻找具有最高触及IP相关的用户代理是那样简单文本搜索。在这种情况下，IP已经没有宣布用户代理（来自中国）和命中的网站上比其他任何IP 8万次以上。

　　现在，恶意IP已被确定，使用这些指令，以防止在分析数的通货膨胀，那么封锁该IP访问的？网站完全。

　　在谷歌Analytics（分析）使用过滤器，可以排除的IP。导航到管理 – >选择View（总是一个好主意，做这样的改变时，创建新视图） – > ？过滤器 – > 新过滤器 – >预定义 – >从IP地址排除交通 – >指定IP（正则表达式）。

　　提示：由IAB（对于非会员$ 14，000个值）标识谷歌Analytics（分析）会自动阻止已知的爬虫。只要浏览到管理 – >视图设置，并根据它说：“漫游器过滤，”？从已知漫游和蜘蛛选中“排除所有命中。“它总是创建之前改变配置文件设置一个新的视图中的最佳实践。

　　如果您使用的Omniture，有三种方法？排除IP数据。

　　通过IP排除。从多达50个IP地址不包括命中。

　　Vista的规则。？对于需要超过50家公司。

　　处理规则。？它可以创建一个规则，以防止显示来自特定IP地址的数据。

　　以查明该日志文件位于类似，从服务器级别访问您的网站屏蔽IP地址的方法的变化取决于您使用的服务器类型。

　　的cPanel：使用IP地址拒绝管理，IP地址可被封闭，在现有基础上管理。

　　阿帕奇：mod_authz_host是此推荐的模块，但。htaccess的也可以使用。

　　IIS：？打开IIS管理器 – >功能视图 – > ？IPv4地址和域限制 – >操作面板 – >添加拒绝入境。

　　第三方解决方案的路线，通过网络的所有流量，以实时识别机器人（好的和坏的）。他们不只是看IP和用户代理字符串，而且HTTP头，导航网站的行为以及其他许多因素。有些网站使用的是像reCAPTCHA的方法，以确保他们的网站的访客是人类。

　　你有没有听说过有什么其他方法可以帮助防止“坏机器人的崛起？“

　　在这篇文章中所表达的意见是那些客人笔者并不见得搜索引擎土地。作者的工作人员在这里列出。