Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
形式:在网站根目录下的robots.txt文件。

案例

京东的Robots协议
百度的Robots协议
新浪新闻的Robots协议
qq的Robots协议
qq新闻的Robots协议
国家教育部的Robots协议(无robots协议)

Robots协议基本语法

# 注释:*代表所有,/代表根目录
User-agent: *
Disallow: /

Robots的遵守方式

Robots协议的使用

网络爬虫:自动或人工识别robots.txt,再进行内容爬取。
约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容