YisouSpider看名字应该是一搜这个搜索引擎的蜘蛛,一搜这个名字现在已经很难见到的,一搜最早是由雅虎中国于2004年创建的,在阿里巴巴收购雅虎中国后归到了神马搜索旗下,所以神马搜索的蜘蛛名字就成了YisouSpider,目前神马搜索只有移动端,PC端暂时没有提供服务,所以对于移动端有需要的用户可以保留这个蜘蛛,但是以PC端流量为主力的网站可以屏蔽这个YisouSpider蜘蛛,优化网站压力。
为什么要屏蔽...
屏蔽AWStats中发现的垃圾蜘蛛oBot的方法
最近在用AWStats检查网站的时候,在Robots/Spiders visitors一项中发现第一名的蜘蛛是一个叫oBot的蜘蛛,蜘蛛就是搜索引擎抓取网页的一个工具。这个oBot蜘蛛每天都会来网站抓取数据,而且数据量非常大,都是上G大小的抓取。不过还好抓取的时间基本都是在凌晨,这个时候服务器的负载是比较小的。目前没有发现服务器扛不住导致网站无法访问的情况。
网站搜索了一下这个oBot蜘蛛,这个oBot 是 IBM Germany...
主机控制面板Awstats中的DotBot是什么蜘蛛?
Awstats是一个非常强大的网站日志分析工具,在虚拟主机中一般都有提供。通过网站的日志分析可以查看网站的一些基本信息,网站的流量分析。其中有一项是网站蜘蛛访问情况,我们可以查看Robots/Spiders visitors (Top 10)前十名,也可以查看所有蜘蛛列表,而且有蜘蛛访问时间,抓取链接数量,消耗流量信息等。
各大搜索引擎的蜘蛛对网站抓取,然后在搜索中提供检索,这样就可以给网站带来很多流量,但是...
用robots文件屏蔽垃圾搜索蜘蛛减少服务器压力
蜘蛛为了采集网站数据,有时候会消耗网站很大的流量,对服务器的压力很大,有些服务器承担不了压力,直接导致网站无法打开,提示502 bad gateway,国内百度,360,搜狗蜘蛛,神马搜索指数,除了这些蜘蛛,其他国外的蜘蛛基本对国内网站用处不大,所以可以通过服务器网站robots.txt文件进行屏蔽。文件内容如下,在文件内容下添加:
User-agent: ubot
Disallow: /
User-agent: spider
Disallow: /
User-a...
Unknown robot (identified by ‘spider’)蜘蛛占用大量流量
网站流量被Unknown robot (identified by 'spider')占用了好几个G,这个蜘蛛也没有任何标示,我很奇怪这个蜘蛛为什么会占这么大的流量,类似的蜘蛛还有Unknown robot (identified by 'bot*'),Unknown robot (identified by empty user agent string),不知道这个是不是某些网站监控程序导致的,解决方法可以暂时通过主机禁止这个ip访问,或者robots.txt禁止相应的蜘蛛访问。