登录注册写文章

一个简单的不能再简单的python爬虫

一个简单的不能再简单的python爬虫

使用到框架:requests+bs4(BeautifulSoup)+pymysql

requests: 一个数据抓取框架
bs4: HTML解析框架
pymysql: python数据库框架
框架安装:
1. 安装命令: pip3 install XXX

开整!
1.导入框架
import requests
from bs4 import BeautifulSoup
2.让我们以抓取糗百首页为例:
r = requests.get("https://www.qiushibaike.com/text")
print(r.text) #此时打印出首页html内容了已经
3.创建bs对象,用于从html中过滤有效内容
q = BeautifulSoup(r.text, 'html.parser')
4.期望从整个html中解析出正文内容example:

<div class="content"> <span> 今天我耍朋友去了晚上回去爹妈问你今天跑哪里去了我说我说朋友去了他们呵呵一声冷笑就你这样儿还耍的到朋友？哭了。。。 </span> </div>

1.首先我们要取出所有的div节点
2.然后在所有的div节点中筛选出我们的目标div

divs = q.find_all('div')
for div in divs:
    if div['class'] == ['content']:  #正文
        text = div.span.text 
        print(text) #自定义存储

总结:整理的流程就是:

从页面抓取数据 -> 对数据解析,取出内容 -> 内容存储/分析 -> 展示

BeautifulSoup文档

最后编辑于：2017.12.10 06:02:20

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 14,382评论 6赞 28
Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 13,338评论 0赞 6

Python网络爬虫（五）- Requests和Beautiful Soup
目录： Python网络爬虫（一）- 入门基础Python网络爬虫（二）- urllib爬虫案例Python网络爬...
一只写程序的猿阅读 14,426评论 17赞 68
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,807评论 3赞 44
（01）最简单的爬数据
请求：导入import requests r=requests.get('中间是网址') 再提取 html=r.c...
彭健平6点30阅读 4,536评论 0赞 3

1赞2赞

赞赏

手机看全文