登录注册写文章

python爬取豆瓣两千万图书简介信息：（八）总结

python爬取豆瓣两千万图书简介信息：（八）总结

这次用python爬取豆瓣两千万图书简介信息，大概用时两周时间。
程序在工作之余断断续续的调试了一周多，最终稳定运行了三四天。

调试过程

调试过程我已经整理成为笔记，这里分析给大家：
python爬取豆瓣两千万图书简介信息：（一）目标API分析
 python爬取豆瓣两千万图书简介信息：（二）简单python请求urllib2
python爬取豆瓣两千万图书简介信息：（三）异常处理
 python爬取豆瓣两千万图书简介信息：（四）多进程并发
 python爬取豆瓣两千万图书简介信息：（五）数据库设计
 python爬取豆瓣两千万图书简介信息：（六）数据库操作类
 python爬取豆瓣两千万图书简介信息：（七）代理IP
python爬取豆瓣两千万图书简介信息：（八）总结

执行结果

执行的最终结果是获取到了550w条的简介书目数据。
大概有书目，书id，作者，标签，出版社，书目缩略图链接等。这些足以供我以后做数据分析使用。

豆瓣的图书信息大概有三四千万的样子，更多的，需要去摸索id的规律方便分析。目前来讲500w条已经够我使用了，如以后再需要，那就再继续爬取就是了。

用到的知识

调试过程中，用到的知识点如下：
1）python基础语法。
2）HTTP相关基础知识。
3）urllib2库的使用。
4）trycatch异常捕获。
5）代理ip使用和获取。
6）简单数据库的使用。
7）python线程与进程分析。

这些知识之前有的简单了解过，并未实践，这次算是写写test demo。有的不清楚，这次算是查了查，浅尝一下。

心血来潮，弄了这么一个程序，主要是为了进行数据分析用的。但当时搞完程序，又忙别的去了，三个月后，终于有空复盘，特此记录一下。

最后编辑于：2018.05.03 09:57:06

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python爬取豆瓣两千万图书简介信息：（四）多进程并发
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
曹波波阅读 3,959评论 0赞 0
Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 175,791评论 25赞 709

python爬取豆瓣两千万图书简介信息：（三）异常处理
这是全部的调试过程，我已经整理成为笔记，这里分享给大家：python爬取豆瓣两千万图书简介信息：（一）目标API分...
曹波波阅读 4,404评论 0赞 1
Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,721评论 6赞 427
坚持
每天做什么，完成什么，达到一个什么程度……也许是许多人在每天思考的问题。可不可以把坚持变成简单。当我...
华华雯雯阅读 1,274评论 0赞 0

赞1赞

赞赏

手机看全文