登录注册写文章

网络爬虫入门（一）之初识爬虫

Chad你要加油

网络爬虫入门（一）之初识爬虫

一、什么是爬虫，爬虫能做什么

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。

爬虫可以抓取的某个网站或者某个应用的内容，提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作，实现自动化的程序。以下行为都可以用爬虫实现：

咨询报告（咨询服务行业）
抢票神器
投票神器
预测（股市预测、票房预测）
国民情感分析
社交关系网络
政府部门舆情监控

二、爬虫基本原理

爬虫是模拟用户在浏览器或者App应用上的操作，把操作的过程、实现自动化的程序。

当我们在浏览器中输入一个url后回车，后台会发生什么？比如说你输入https://www.baidu.com，简单来说这段过程发生了以下四个步骤：

查找域名对应的IP地址，浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址
向IP对应的服务器发送请求。
服务器响应请求，发回网页内容。
浏览器显示网页内容。

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定url，直接返回给用户所需要的数据，而不需要一步步人工去操纵浏览器获取。可看流程图

流程图

结尾

网络爬虫入门（一）之初识爬虫就介绍到这里，下一篇文章将会介绍爬虫的基本流程

从事任何职业都是一个工具，不是一首歌、不是一个节目，而是态度。

可加公众号【数据蛙DataFrog】，我们一起学习交流

最后编辑于：2019.03.08 09:26:25

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

《这就是搜索引擎》爬虫部分摘抄总结
《这就是搜索引擎》这本书的第二章是关于爬虫的，干货很多（文章几乎没有废话，所以复制居多），可以参考搜索引擎是如何构...
SeanCheney阅读 2,134评论 0赞 20
33款可用来抓数据的开源爬虫软件工具
33款可用来抓数据的开源爬虫软件工具要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即...
visiontry阅读 7,468评论 1赞 99
爬虫基础
HTTP基本原理 URI、URL、URN（Uninform Resource） URI（Identifier）:统...
GHope阅读 2,170评论 2赞 26
心动陌生人
我不曾见过他他亦不知世上有我 2011年他安眠在了另一个我不了解的世界他的文字却在今天一缕缕拂着我的...
雪莉诗话阅读 240评论 24赞 17
郁结
可能是父母开始催我了，也可能是时候到了，我开始特别渴望身边能有个人陪我。。。。四年了，依稀还记得高三毕业的那个暑...
画个圈圈1阅读 121评论 0赞 0

5赞6赞

赞赏

手机看全文