基于urllib和re模块的爬虫简单实战

基于基础库的简单实战

爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/

明确爬取目标：

书名
作者
出版社
出版年
豆瓣评分
刘传评语

查看网页构造：

代码：

from urllib import request
url = 'https://www.douban.com/doulist/44773558/'

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.douban.com'
}

req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
# 在这里我遇到了UnicodeEncodeError，在Windows的ipython中没有出现，在Linux的ipython中出现，在普通模式下没有问题。
content = response.read().decode('utf-8')

# 尝试提取信息
# 尽量使用非贪婪模式
import re 
pattern = re.compile('<div.*?doulist-item.*?"title">.*?"_blank">(.*?)</a>.*?"rating_nums">(.*?)</span>.*?"abstract">(.*?)</div>.*?"comment">(.*?)</blockquote>.*?</div>',re.S)

results = re.findall(pattern,content)

# 数据整理
for result in results:
    title,rating_nums,abstract,comment=result
    author,publisher,year= abstract.split('<br />')
    author = re.sub('\s',auhtor)
    publisher = re.sub('\s',publisher)
    print(title,rating_nums,author,publisher,year,comment)

然后修改url为'https://www.douban.com/doulist/44773558/?',就可以把第二页的内容。
以上就是学习了urllib和正则表达式能做的简单操作。

一些心得

在解析网页内容时避免使用贪婪模式，不然可能会滤过一些符合条件的匹配。
写正则表达式是一件非常考验经验的活，需要多练习。
urllib库果然不太好用，下次用request库。

基于urllib和re模块的爬虫简单实战

基于基础库的简单实战

一些心得

推荐阅读更多精彩内容