一个简单的不能再简单的python爬虫

  • 使用到框架:requests+bs4(BeautifulSoup)+pymysql

    requests: 一个数据抓取框架
    bs4: HTML解析框架
    pymysql: python数据库框架

  • 框架安装:

    1. 安装命令: pip3 install XXX
  • 开整!
    1.导入框架
    import requests
    from bs4 import BeautifulSoup
    2.让我们以抓取糗百首页为例:
    r = requests.get("https://www.qiushibaike.com/text")
    print(r.text) #此时打印出首页html内容了已经
    3.创建bs对象,用于从html中过滤有效内容
    q = BeautifulSoup(r.text, 'html.parser')
    4.期望从整个html中解析出正文内容example:

    <div class="content"> <span> 今天我耍朋友去了 晚上回去 爹妈问 你今天跑哪里去了 我说 我说朋友去了 他们呵呵一声冷笑 就你这样儿还耍的到朋友? 哭了。。。 </span> </div>

    1.首先我们要取出所有的div节点
    2.然后在所有的div节点中筛选出我们的目标div

divs = q.find_all('div')
for div in divs:
    if div['class'] == ['content']:  #正文
        text = div.span.text 
        print(text) #自定义存储
  • 总结:整理的流程就是:

    从页面抓取数据 -> 对数据解析,取出内容 -> 内容存储/分析 -> 展示

BeautifulSoup文档

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容