网络爬虫入门(一)之初识爬虫

一、什么是爬虫,爬虫能做什么

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。

爬虫可以抓取的某个网站或者某个应用的内容,提取有用的价值。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。以下行为都可以用爬虫实现:

  • 咨询报告(咨询服务行业)

  • 抢票神器

  • 投票神器

  • 预测(股市预测、票房预测)

  • 国民情感分析

  • 社交关系网络

  • 政府部门舆情监控

二、爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序。

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com,简单来说这段过程发生了以下四个步骤:

  • 查找域名对应的IP地址,浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址

  • 向IP对应的服务器发送请求。

  • 服务器响应请求,发回网页内容。

  • 浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。可看流程图


流程图

结尾

网络爬虫入门(一)之初识爬虫就介绍到这里,下一篇文章将会介绍爬虫的基本流程

从事任何职业都是一个工具,不是一首歌、不是一个节目,而是态度。
可加公众号【数据蛙DataFrog】,我们一起学习交流
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 《这就是搜索引擎》这本书的第二章是关于爬虫的,干货很多(文章几乎没有废话,所以复制居多),可以参考搜索引擎是如何构...
    SeanCheney阅读 2,134评论 0 20
  • 33款可用来抓数据的开源爬虫软件工具 要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即...
    visiontry阅读 7,468评论 1 99
  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 2,170评论 2 26
  • 我不曾见过他 他亦不知世上有我 2011年 他安眠在了 另一个我不了解的世界 他的文字 却在今天 一缕缕 拂着我的...
    雪莉诗话阅读 240评论 24 17
  • 可能是父母开始催我了,也可能是时候到了,我开始特别渴望身边能有个人陪我。。。。 四年了,依稀还记得高三毕业的那个暑...
    画个圈圈1阅读 121评论 0 0