AhrefsBot蜘蛛是一个比较常见的垃圾蜘蛛,它是Ahrefs网站的蜘蛛,而Ahrefs网站是国外一家比较有名的营销网站,也是大家做外贸网站SEO可能会用到的外链查询分析网站,对大部分网站来说都没什么用,所以我是选择屏蔽这个爬虫的。
值得表扬的是AhrefsBot蜘蛛确实遵循robot协议,我昨天屏蔽的,今天就没有任何AhrefsBot爬虫的痕迹。
User-agent: AhrefsBot
Disallow: /
将以上代码添加到robot.txt文件里面即可很方便的屏蔽掉。
当然为了防止后期它哪一天不讲武德,还是附上通过修改Nginx或其它WEB服务器规则禁止抓取的代码:
if ($http_user_agent ~* "AhrefsBot" )
{
return 403;
}
禁止IP的做法我觉得没什么意义,IP变动太简单了。
