Unknown robot (identified by 'spider')是什么意思?

通过robots.txt来限制爬虫

robots.txt是一个限制爬虫的规范,该文件是用来声明哪些东西不能被爬取。如果根目录存在该文件,爬虫就会按照文件的内容来爬取指定的范围。

因国内大部分虚拟主机限制了每月的流量,在通过空间商提供的控制面板查看访问流量时发现非浏览器浏览占去大量的流量,通过查看:

搜索引擎网站的机器人发现大量流量是被Unknown robot (identified by ‘spider’)、Unknown robot (identified by 'robot')消耗掉,除了百度,GOOGLE等常见搜索引擎蜘蛛外,有些不知名搜索引擎蜘蛛违规胡乱爬行我们的网站,造成流量被大量消耗和占用CPU资源,导致网站访问速度变慢,超出流量还需要单独再付费购买流量,给客户造成经济负担。那么我们需要做一些设置将其屏蔽。为客户快速解决这个问题。 

robots.txt爬虫协议 对正规的搜索引擎会有效,但对一些不知名的搜索引擎可能会无效,现在GOOGLE被国内封锁,如果你的用户是国内客户,可以将GOOGLE搜索引擎一起屏蔽掉。 以下代码为:

禁止除百度、360外的一切搜索引擎索引你的网站

User-agent: Baiduspider

User-agent: 360spider

Disallow: User-agent: *

Disallow: /

 在网站根目录下创建名为robots.txt的记事本文件,把以上代码的红色部份放到robots.txt内即可。

User-agent为充许某个搜索引擎索引你的网站。如要增加搜狗:Sogou web spider、有道:YoudaoBot等,增加User-agent即可。

如果对代码不熟悉,可以通过在线生成工具操作生成。tool.chinaz.com/robots/


User-agent: *         对所有蜘蛛开放

Allow: /                  允许访问子目录

Sitemap: http://###########/sitemap.xml      指定网站地图



User-agent: Baiduspider       允许百度蜘蛛

User-agent: 360spider          允许360蜘蛛

Disallow: User-agent: *         关闭向所有蜘蛛开放的通道

Disallow: /                              不允许访问子目录

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容