屏蔽AWStats中发现的垃圾蜘蛛oBot的方法
最近在用AWStats检查网站的时候,在Robots/Spiders visitors一项中发现第一名的蜘蛛是一个叫oBot的蜘蛛,蜘蛛就是搜索引擎抓取网页的一个工具。这个oBot蜘蛛每天都会来网站抓取数据,而且数据量非常大,都是上G大小的抓取。不过还好抓取的时间基本都是在凌晨,这个时候服务器的负载是比较小的。目前没有发现服务器扛不住导致网站无法访问的情况。
网站搜索了一下这个oBot蜘蛛,这个oBot 是 IBM Germany Research & Development GmbH 内容安全部门的网络爬行机器人。IBM 使用多台计算机来抓取网页,并使用一个大型计算机集群来对这些页面的内容进行分类。目前对网站流量有好处的蜘蛛,比如必应搜索的bingbot,谷歌搜索的Googlebot,搜狗搜索的Sogou web spider,360搜索的360Spider,和大名鼎鼎的百度搜索Baiduspider。和这些搜索引擎相比这个oBot显然不是国内的搜索引擎提供商,而是IBM公司数据采集和存档的采集蜘蛛,oBot 使用不同的参数来确定其访问间隔以及对网页进行分类所需的数据量。从您的主页开始,oBot 从您的网络服务器加载 html 和其他文本文档、图像、动画和二进制文件以分析内容。这种蜘蛛对特别国内网站的访问一点好处都没有,反而会加重服务器的负载,所以需要对网站进行优化,建议通过robots.txt协议禁止oBot蜘蛛的抓取。
具体方法如下:
在网站根目录robots.txt加入下面代码。
User-agent: oBot Disallow: /