详解robots协议以及其作用

什么是robots协议

先看图

淘宝的robots协议

我们会发现,这张图中显示的是,百度搜索"淘宝",淘宝的官网下面看到写了这么一句话:

由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容

解释

Robots协议(也称为爬虫协议、机器人协议等),全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面时可以抓取的,哪些页面是不可以抓取的。Robots协议是一个道德层面上的约定,作为爬虫人员遵守与否完全取决于自己,不会因为有Robots协议而导致网页爬取不下来的情况。

个人观点是,爬取的内容不会被商业利用,仅作为个人练习,是可以不遵守这个协议的(一般来讲,robots协议仅仅只是给搜索引擎看的)

耳听为虚,眼见为实

那么到底什么是robots协议呢?

我们来看一下淘宝的Robots协议,在浏览器输入:https://www.taobao.com/robots.txt

一般来讲,大多数网站的Robots协议都是跟在网站的根目录下的,像淘宝就是在网站的根目录后面接上robots.txt。

看一下:

淘宝的robots协议

简单解读一下:

User-agent : 即是谁在访问,以这里的第一个举例,即Baiduspider,就是百度爬虫机器人。

Allow:即允许什么,以这里的第一个举例,即/Article,就是说淘宝网站允许百度爬虫机器人爬取其文章页面,即https://www.taobao.com/Article这个链接可以被百度爬虫爬取,

下面的都是同理,

Disallow就是不让爬什么,这里的第一个就是/product/

简单分析一下就知道,百度可以爬取淘宝的页面可以说极少了

以上就是Robots协议。


个人博客地址:www.limiao.tech

个人WX公众号:TechBoard

欢迎访问~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 网络爬虫的君子协议 网络爬虫的尺寸 网络爬虫引发的问题 性能骚扰 法律风险 隐私泄露 网络爬虫的"性能骚扰"web...
    若与阅读 33,746评论 2 43
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,442评论 1 99
  • 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序...
    评评分分阅读 8,046评论 2 121
  • 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而...
    AttackCoder阅读 535评论 0 0
  • 借给朋友行李箱,没还。过些天问,什么时候还,说还要用。再问,回复说,会给我个新的。 昨天,朋友说,有个新的行李箱,...
    二十五点一刻阅读 148评论 0 1