python爬虫从入门到放弃(一)

认识爬虫 

一,什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据。

二,爬虫可以做什么?

可以获取浏览器里访问的,我们需要的一些数据,比如图片,视频等等

三,爬虫的本质

模拟浏览器打开网页,获取网页中我们想要的那部分数据,浏览器打开网页的过程,当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频.....)


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,242评论 19 139
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,841评论 6 28
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,477评论 1 99
  • 蒙自北。我家小三来接。先去碧色寨。冯小刚才拍过《芳华》,到处都有他的照片、道具什么的。原先破财的碧色寨现在投重金修...
    鱼_sunny阅读 288评论 0 0
  • “智者都是利用别人休息的时间来拉开差距” 为了手虐某炜记录我废寝忘食。 正当我为破了他记录而沾沾自喜时… 所谓乐极...
    颦颦1阅读 649评论 0 0