Robots协议

Robots Exclusion Standard 网络爬虫排除标准

作用：网站告知网络爬虫哪些页面可以抓取，哪些不行。
形式：在网站根目录下的robots.txt文件。

# 注释：*代表所有，/代表根目录
User-agent: *
Disallow: /

网络爬虫：自动或人工识别robots.txt，再进行内容爬取。
约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，

最后编辑于：2017.12.06 20:44:36

关于购物网站及网页小游戏的robots协议
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
十三不好听阅读 1,184评论 0赞 0
爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议网络爬虫的尺寸网络爬虫引发的问题性能骚扰法律风险隐私泄露网络爬虫的"性能骚扰"web...
若与阅读 33,742评论 2赞 43
《Python网络爬虫》2.2 Robots协议
By 一页编程什么是Robots协议 Robots是机器人的意思，那Robots协议是什么呢？ Robots协...
一页编程阅读 1,445评论 0赞 1
Python爬虫之robots协议
网络爬虫有时候也会引发很多的问题由于编写的爬虫的性能和其他原因，可能会对Web服务器带来巨大的资源开销服务器上...
六尺帐篷阅读 1,533评论 0赞 2
Robots协议
1 Robots Exclusion Standard 网络爬虫排除标准作用: 网站告知网络爬虫哪些页面可以抓取...
Eric苏离阅读 685评论 0赞 0

赞1赞

赞赏

手机看全文