爬取豆瓣图书遇到的问题

功能：爬取所有tag下所有图书信息，每个tag下分页爬取。
遇到的问题：一开始我用session进行爬取，每次分页都会出现错误
HTTPSConnectionPool(host='book.douban.com', port=443): Max retries exceeded with url: /tag/%E5%B0%8F%E8%AF%B4?start=20 (Caused by ConnectTimeoutError(<urllib3.connection.VerifiedHTTPSConnection object at 0x08C99230>, 'Connection to 27.159.167.45 timed out. (connect timeout=10)'))
解决方法：然后将session全部换成requests，结果不报错。
原因：不知道

最后编辑于：2019.10.09 15:04:32

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python实战视频1.4 如何获取网页中的动态数据（爬取KnewOne网站）
目的：使用爬虫抓取网站异步加载数据 part1：什么是异步加载？异步加载即网页上没有页码跳转按钮，鼠标往下滚即可...
魏魏魏_1500阅读 5,227评论 0赞 1
爬取某小视频网站的下载链接地址批量下载
仅供学习必要的都打码处理了！！！ 0x01前言漆黑的房间只有闪烁的电脑灯光，小明独守空房寂寞难耐。只见他...
啾哥阅读 11,742评论 1赞 3
16行python代码带你爬取豆瓣读书页面
最近在学习Python的爬虫，然后意外发现了python+selenium这个很神奇的组合。或许你还不知道sel...
迟暮有话说阅读 8,100评论 9赞 14
无标题文章
我们料定了没人敢把公务员金饭碗打破，所以拼命挤进去享红利，我们料定了没人敢让房价跌下来，所以竭尽所能去买房。。
提笔忘字2016阅读 1,378评论 0赞 0
iOS开发之 runtime(37) ：load 方法调用
本系列博客是本人的源码阅读笔记，如果有 iOS 开发者在看 runtime 的，欢迎大家多多交流。前言上一篇文...
kyson老师阅读 6,089评论 0赞 50

赞1赞

赞赏

手机看全文