屏蔽神马搜索蜘蛛YisouSpider减轻网站压力的方法
YisouSpider看名字应该是一搜这个搜索引擎的蜘蛛,一搜这个名字现在已经很难见到的,一搜最早是由雅虎中国于2004年创建的,在阿里巴巴收购雅虎中国后归到了神马搜索旗下,所以神马搜索的蜘蛛名字就成了YisouSpider,目前神马搜索只有移动端,PC端暂时没有提供服务,所以对于移动端有需要的用户可以保留这个蜘蛛,但是以PC端流量为主力的网站可以屏蔽这个YisouSpider蜘蛛,优化网站压力。
为什么要屏蔽神马搜索YisouSpider蜘蛛,因为这个蜘蛛会不定时的在白天或晚上都大量抓取网站数控,而且蜘蛛都是一个ip组形式来抓取,导致网站负载增大,甚至崩溃。在网站日志分析中,通过 IP 段加上完整的 User Agent,这个蜘蛛应该是服务器集群的一组 IP 池,一种为移动端的 User Agent,一种则为 PC 端的 User Agent,都是神马搜索的蜘蛛。这个蜘蛛爬行频率和次数超过几乎所有其他蜘蛛。不过还好YisouSpider遵守robots.txt协议,所以可以通过这个协议来禁止抓取,减轻网站压力。
具体方法如下:
在网站根目录robots.txt加入下面代码。
User-agent: YisouSpider Disallow: /