详解robots协议以及其作用

什么是robots协议

先看图

淘宝的robots协议

我们会发现，这张图中显示的是，百度搜索"淘宝"，淘宝的官网下面看到写了这么一句话：

由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取)，系统无法提供该页面的内容

解释

Robots协议(也称为爬虫协议、机器人协议等)，全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面时可以抓取的，哪些页面是不可以抓取的。Robots协议是一个道德层面上的约定，作为爬虫人员遵守与否完全取决于自己，不会因为有Robots协议而导致网页爬取不下来的情况。

个人观点是，爬取的内容不会被商业利用，仅作为个人练习，是可以不遵守这个协议的(一般来讲，robots协议仅仅只是给搜索引擎看的)

耳听为虚，眼见为实

那么到底什么是robots协议呢？

我们来看一下淘宝的Robots协议，在浏览器输入：https://www.taobao.com/robots.txt

一般来讲，大多数网站的Robots协议都是跟在网站的根目录下的，像淘宝就是在网站的根目录后面接上robots.txt。

看一下：

淘宝的robots协议

简单解读一下：

User-agent : 即是谁在访问，以这里的第一个举例，即Baiduspider，就是百度爬虫机器人。

Allow：即允许什么，以这里的第一个举例，即/Article,就是说淘宝网站允许百度爬虫机器人爬取其文章页面，即https://www.taobao.com/Article这个链接可以被百度爬虫爬取，

下面的都是同理，

Disallow就是不让爬什么，这里的第一个就是/product/

简单分析一下就知道，百度可以爬取淘宝的页面可以说极少了

以上就是Robots协议。

个人博客地址：www.limiao.tech

个人WX公众号：TechBoard

欢迎访问~

详解robots协议以及其作用

什么是robots协议

推荐阅读更多精彩内容