恶意镜像网站是什么?
镜子网站是指与您的网站基本相同,并能实时同步的其他网站。如同一面镜子,所以叫做镜像。
有些镜像网站是没有恶意的,很可能是你自己设置的,为了方便用户可以从多个网站上访问,网站被封,还有其他的域名。例如著名的草榴社区,似乎有许多镜像可访问。
有些镜像,即本文所讨论的镜像,是不怀好意的,通常是由其他人设置的,或者是为了给你的网站做负面SEO,或者是为了利用你的内容获得排名,然后将用户引向敏感的,非法的内容网站。
在线的一些文章将收集与镜像混为一谈。尽管这些表现形式相似,但是严格来说,收集和镜像实现方法,表现形式是有区别的。
收集网站一般都是事先抓取别人网站的内容,放入自己的数据库,然后用程序调用到页面。当被收集的网站有新的内容时,收集的网站不能实时同步更新,再次被收集后才会出现。采集到的内容已经存储在彼此数据库中,技术上不能阻止采集站点显示这些内容。文章并没有说到这一点。
镜子网站不会事先抓取内容,而是在访问网站时,从被镜子网站实时提取内容,做一些处理(替换URL、文本、加注文本、JS等),然后实时显示出来。对镜像站点进行任何更新,镜像站点实时同步。
窃贼程序和镜像站点
还有一些程序在网上出售镜像站点。盗贼程序通常也用于采集物品。没有提到名字,只是为了不对他们进行宣传。从网站上摘取几个程序功能,以帮助理解以下内容:
全自动化分析,内外链接自动转换,图片地址,css,js,CSS内图片自动分析。
内建强大的替换和过滤功能,标签过滤,站内外过滤,字符串替换等。
假原创,近义替换对seo有利。
添加URL路由,实现全站URL转换,实现本地URL地址的个性化。
超模增加了移动模板,定制栏的功能。
新增自动获取301,302重定向采集,解决跳WWW,跳https采集问题。
为应对防收集措施,您可以使用代理IP、伪造IP、随机IP、伪造user-agent、伪造refererer来路、定制cookie。
实际上我很困惑,为什么网信办不下令关闭出售盗贼程序的网站,这样的网站才是真正的本关,而非其他一些网站。
镜中的人有什么危险?
就SEO而言,权重不高的小站、新站,被镜像意味着其他网站和你的网站内容基本相同,搜索引擎也有可能认为你的网站不是原版,镜像网站才是,所以就把排名、流量都给镜像网站了。
对于具有一定历史和影响力的站点,镜像站点取代原始站点的可能性很小。但是从情绪的角度来看,被别人镜像,被别人偷走了内容,即使没有其他明显的后果,也还是很烦人的一件事。
另外一件令人讨厌的事情是,镜像网站通常不会提供与你相同的产品或服务,而是将用户转移到赌博,色情等服务中。有些通过JS向用户展示赌博、色情等内容,有些直接将用户引向其他网站。
如何发现自己的站点被镜像。
有时注意到被镜像是由于自己网站排名下降,怀疑有负面的SEO。有时可以搜索品牌名,查看镜像站点。已知自己被镜像处理得很好,直接看下面如何处理。
许多站长则完全不知道他们的网站是否被镜像。我有一些常用的检查方法。
首先,百度统计后台:
在百度统计后台显示访问域名。
访问域名部分列出的域名使用的百度统计代码相同。在这些网站中,出现快照、百度/谷歌翻译等是正常的,但是出现一些奇怪的域名就要看一下了,比如上图中的5、7、8个,访问一下就知道都是镜像SEO每日一帖,诱使用户赌博的网站,然后站长将SEO每日一帖的统计代码也复制了过来。
看一下上面列出的盗贼显示功能,实际上统计代码是很容易替换或删除的。因此访问域名时只能看到一小部分镜像网站。
二是搜索网站特色句子。很容易想到的是网站的品牌名,首页标题等,确实能找到一些镜像网站。但是正如前面所提到的,大多数的品牌名都会被替换,所以我更喜欢在网页上搜索一些独特的句子,比如这个博客的副标题:Zac的SEO博客,坚持了12年,优化就成了常态。通过搜索可以看到以下内容:
查找网站特色句子。
看起来我的博客很容易吸引菠菜呢。
一般而言我不会在帖子里搜索句子,因为那样会返回大量转载、复制的网页,没有镜像。
如上图所示,镜像网站会自动替换title和正文中的品牌词或指定关键字,访问此类网站通常会产生以下效果:
映射站点替换字符串。
这张图中的网站并不使用JS来显示菠菜的内容,而是直接将菠菜的内容和链接插入正文中。有些镜像网站使用JS在页面的上半部显示大量的内容,就像典型的赌博网站一样,把镜像拉到下面就可以看到内容。
通常还需要在别处搜索到更完整的特征文本,以便查找。例如在搜索页脚的声明中有这样一句:“明明很久一贴,为什么号称“看到其他镜像站点:”
查找特色句发现镜像站点。
为什麽要搜索句子的一半,而不是搜索“明明很久一贴,为何自称SEO每日一贴”?或者,因为品牌词或特征关键字经常被替换,例如:
反射网站取代了关键字。
一般来说,我使用Google这种搜索方式,因为Google的任何东西都被收录。
站点被镜像到了怎么办?
第一,一些网上提到的解决方案没什么用处。
例如有些说网页链接用绝对地址就可以了,其实盗贼程序会自动替换网址,用相对地址还是绝对地址没有什么区别。
而且说网页上加了网站链接,网站名,版权声明等等,搜索引擎会确定哪一个是正版。但是镜像窃贼程序甚至可以将链接带文本全部自动替换,这样做是没用的。
找出镜像站点后的处理原则就是让镜像站点无法在镜像域名上显示您的内容。由于镜像站点需要实时访问和调用镜像页面,因此有几种方法可以考虑。
例如,使用JS检测正在打开的网页是否位于自己的域名上,是否正常显示是正常的话,不是的话强制转到自己的域名(当域名是镜像站点时):
(window.location.hostname)==“www.seozac.com”){
href=‘https://www.seozac.com/’;
}
(说明:我不熟悉程序,代码只是简单的举例,具体怎么写,请问你的程序员。)
尽管如此,此方法仅对用户有效,搜索引擎不执行JS,仍然可以获取镜像内容。使用PHP编写脚本也可以判断和转向。
有时,因为各种原因,程序无法正常工作。另外一种直接的方法是屏蔽镜像站点所访问的IP地址。首先检查镜像网站服务器IP:
查找镜像站点的IP地址。
首先屏蔽对方主机IP。但是镜像网站用于实时抓取的IP大多不是域名主机IP,可能是CDN,也可能是伪造的IP或多IP服务器。为了找到必须屏蔽的IP,需要查看站点的原始日志。有个小技巧是,在镜像网站中访问一个很少有人会访问的页面,比如翻页到70页,然后立即查看日志,这个页面所访问的IP就是应该屏蔽的IP:
查找日志中需要屏蔽的IP。
把这个IP屏蔽后,再次访问镜像网站就变成了403错误:
筛选IP后出现403错误。
不知页脚的友谊链接是镜像网站自己加的?或者是卖者强迫附加的?
镜像站点通常会伪造或实时轮换IP地址,如果屏蔽了一个IP站点仍然可以访问,再访问翻阅69页、68页等,就可以发现更多IP。筛选还能筛选IP段。根据我的经验,镜像站点通常不会使用超过10个IP地址。
你可以写一个简单的脚本放在你的网站,比如www.seozac.com/mirror.php:
echo$_SER