python爬取豆瓣两千万图书简介信息:(八)总结

这次用python爬取豆瓣两千万图书简介信息,大概用时两周时间。
程序在工作之余断断续续的调试了一周多,最终稳定运行了三四天。

调试过程

调试过程我已经整理成为笔记,这里分析给大家:
python爬取豆瓣两千万图书简介信息:(一)目标API分析
python爬取豆瓣两千万图书简介信息:(二)简单python请求urllib2
python爬取豆瓣两千万图书简介信息:(三)异常处理
python爬取豆瓣两千万图书简介信息:(四)多进程并发
python爬取豆瓣两千万图书简介信息:(五)数据库设计
python爬取豆瓣两千万图书简介信息:(六)数据库操作类
python爬取豆瓣两千万图书简介信息:(七)代理IP
python爬取豆瓣两千万图书简介信息:(八)总结

执行结果

执行的最终结果是获取到了550w条的简介书目数据。
大概有书目,书id,作者,标签,出版社,书目缩略图链接等。这些足以供我以后做数据分析使用。

豆瓣的图书信息大概有三四千万的样子,更多的,需要去摸索id的规律方便分析。目前来讲500w条已经够我使用了,如以后再需要,那就再继续爬取就是了。

用到的知识

调试过程中,用到的知识点如下:
1)python基础语法。
2)HTTP相关基础知识。
3)urllib2库的使用。
4)trycatch异常捕获。
5)代理ip使用和获取。
6)简单数据库的使用。
7)python线程与进程分析。

这些知识之前有的简单了解过,并未实践,这次算是写写test demo。有的不清楚,这次算是查了查,浅尝一下。

心血来潮,弄了这么一个程序,主要是为了进行数据分析用的。但当时搞完程序,又忙别的去了,三个月后,终于有空复盘,特此记录一下。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容