Scrapy的运行机制

  1. 列表项爬虫启动,引擎(Engine)会将起始的url传入到调度器(Scheduler)
  2. 列表项调度器(Scheduler)将url发给下载器(Download),下载器(Download)发起网络请求并将得到的数据发给爬虫(Spider)进行分析
  3. 列表项爬虫(Spider)开始分析数据,得到数据之后有两种情况:
  • 分析得到下一个链接,进一步调用调度器(Scheduler)对链接进行前面两步操作
  • 将分析得到的需要保存的数据,它们则被送到项目管道(Item Pipeline)那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容