基于urllib和re模块的爬虫简单实战

基于基础库的简单实战

爬取目标是千古刘传在豆瓣上的分享书单,网址为https://www.douban.com/doulist/44773558/

明确爬取目标:

  • 书名
  • 作者
  • 出版社
  • 出版年
  • 豆瓣评分
  • 刘传评语

查看网页构造:

代码:

from urllib import request
url = 'https://www.douban.com/doulist/44773558/'

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36',
    'Host':'www.douban.com'
}

req = request.Request(url=url,headers=headers)
response = request.urlopen(req)
# 在这里我遇到了UnicodeEncodeError,在Windows的ipython中没有出现,在Linux的ipython中出现,在普通模式下没有问题。
content = response.read().decode('utf-8')

# 尝试提取信息
# 尽量使用非贪婪模式
import re 
pattern = re.compile('<div.*?doulist-item.*?"title">.*?"_blank">(.*?)</a>.*?"rating_nums">(.*?)</span>.*?"abstract">(.*?)</div>.*?"comment">(.*?)</blockquote>.*?</div>',re.S)

results = re.findall(pattern,content)

# 数据整理
for result in results:
    title,rating_nums,abstract,comment=result
    author,publisher,year= abstract.split('<br />')
    author = re.sub('\s',auhtor)
    publisher = re.sub('\s',publisher)
    print(title,rating_nums,author,publisher,year,comment)

然后修改url为'https://www.douban.com/doulist/44773558/?',就可以把第二页的内容。
以上就是学习了urllib和正则表达式能做的简单操作。

一些心得

在解析网页内容时避免使用贪婪模式,不然可能会滤过一些符合条件的匹配。
写正则表达式是一件非常考验经验的活,需要多练习。
urllib库果然不太好用,下次用request库。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1 前言 作为一名合格的数据分析师,其完整的技术知识体系必须贯穿数据获取、数据存储、数据提取、数据分析、数据挖掘、...
    whenif阅读 18,199评论 45 523
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,807评论 25 709
  • 家里有两个零钱罐,馨儿见了硬币就往她的罐罐里放,时不时把她的硬币倒出来玩儿玩儿,十足个小财迷。 怎么一下涨了这么多...
    yanzuliu阅读 1,742评论 0 1