实战计划1-2爬取商品信息

BeautifulSoup库的使用:tag对象的常用方法

  • select
  • find_all:
    • class_
  • parent
  • string
  • get('id')
# encoding: utf-8
"""
@author: Hammurabi
@contact: breakawayroad@gmail.com
@site: http://
@software: PyCharm
@file: web_parser.py
@time: 8/30/16 9:34 PM
"""

from bs4 import BeautifulSoupdef 

path = './index.html'with open(path, 'r') as wb_data:
    soup = BeautifulSoup(wb_data, 'lxml')
    imgs = soup.select('body > div > div > div.col-md-9 > div > div > div > img')
    prices = soup.select('h4.pull-right')
    names = soup.select('div.caption > h4 > a')
    reviews = soup.select('div.ratings > p.pull-right')
    ratings = soup.select('div.ratings')
    for img, price, name, review, rating in zip(imgs, prices, names, reviews, ratings):
        img_url = img.get('src')
        price = price.string
        name = name.string
        review_string = rating.find_all('p', class_='pull-right')[0].string
        review_cnt = int(review_string[0:review_string.find(' reviews')])
        star_cnt = len(rating.find_all('span', class_='glyphicon-star'))
        data = {
            'image': img_url,
            'price': price,
            'name': name,
            'review': review_cnt,
            'stars': star_cnt,
        }
        print(data)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 31,786评论 18 399
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,080评论 19 139
  • Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实...
    LitOrange阅读 5,321评论 0 4
  • 结婚戒指不见了,我该生气吗?如果他的戒指是在外面找回来的,那我该如何想?
    Y1234阅读 235评论 0 0