Scrapy的运行机制

列表项爬虫启动，引擎(Engine)会将起始的url传入到调度器(Scheduler)

列表项调度器(Scheduler)将url发给下载器(Download)，下载器(Download)发起网络请求并将得到的数据发给爬虫(Spider)进行分析

列表项爬虫(Spider)开始分析数据，得到数据之后有两种情况：

分析得到下一个链接，进一步调用调度器(Scheduler)对链接进行前面两步操作
将分析得到的需要保存的数据，它们则被送到项目管道(Item Pipeline)那里，那是对数据进行后期处理（详细分析、过滤、存储等）的地方

最后编辑于：2017.12.08 06:08:23

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

《Learning Scrapy》（中文版）第10章理解Scrapy的性能
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
SeanCheney阅读 12,991评论 3赞 20
Scrapy爬虫入门教程十三 Settings（设置）
Python版本管理：pyenv和pyenv-virtualenvScrapy爬虫入门教程一安装和基本使用Scr...
inke阅读 62,078评论 6赞 99

使用Docker部署scrapy-redis分布式爬虫
引言在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫，这篇记录了使用Scrapy-Redis将其重...
朱晓飞阅读 11,702评论 1赞 24
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,519评论 10赞 200
《山河故人》
《山河故人》——前尘，此刻，未来 1999年，澳门回归，沈涛在大年夜里跳伞舞，张晋生买了一辆德国产的进口汽车，并买...
冬不拉lala阅读 4,191评论 0赞 2

2赞3赞

1赞赏

手机看全文