爬虫笔记(七) - Scrapy_redis 分布式爬虫尝试

本次只是Scrapy_redis的一次尝试,对于分布式爬虫,还是个小白,如果有什么不对的地方请留言
分布式爬虫代码cuiqingcai_redis
目标站点:www.cuiqingcai.com(作者不会打我吧~~~)
不说那么多废话,我们直接开始

简单的拓扑图

简单拓扑图

环境需要

install scrapy==1.3.3
pymysql==0.7.11
scrapy_redis==0.6.8
其实除了上面的python的库外还需要去了解下:

  1. redis的使用
  2. 数据库的使用:权限、中文乱码等

时间对比分析(用数据说话)

由于没有经验,本次我只是手动复制数据,下次修改博文我截图分析
scrapy 使用时间:平均 120s左右
windwos下面执行scrapy_redis 使用时间: 平均73s左右
windows + 1台虚拟机 执行scrapy_redis 使用时间 :平45s左右

(占位---待继续更新)

使用教程和方法

从scrapy crawlspider 到 scrapy_redis crwalspider
给redis添加键值

lpush myspider:start_urls http://hz.58.com/pbdn/0/

redis 在执行过程中添加的键值和键值分析

redis

requests在爬虫结束时会消失

(占位---待继续更新)
以上都是我的跟人观点,如果有不对,或者有更好的方法,欢迎留言指正~~~(持续更新中)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容