BeautifulSoup随笔

Learn BeautifulSoup

BeautifulSoup用法

引用崔庆才 静觅

基本语法及用法

初始化

soup = BeautifulSoup(html, 'lxml') (or BeautifelSoup(open(filename), 'lxml') )

四大对象种类

* Tag
    * 即标签 如soup.[title| head| a| p| 等等]
    * name: soup.name, soup.head.name
    * attrs 
* NavigableString
    * soup.p.string返回标签内容
* BeatifulSoup
* Commit

遍历

* 直接子节点 .contents .children
* 所有子孙节点 .descendants
* 父节点 .parent .parents
* 兄弟节点 .next_sibling .privious_sibling
* 节点内容 .string
* 多个内容 .string .stripped_strings

搜索文档树

* find_all(name, attrs, recursive, text, **kwargs)
    * name: 标签名为name 
        * 字符串
        * 正则表达式
        * 列表
        * True
        * 方法
    * kwargs: 。。。
    * text: 即查找文本内容
    * limit参数: 限制返回结果数量
    * recursive: 限制搜索节点是否需要子孙节点
* 另外方法有 find find_parent, find_all_next等等

CSS选择器

> select方法是很常用的
  • 通过标签 soup.select('title')
  • 通过类名 soup.select('.content')
  • 通过id soup.select('#link1')
  • 属性查找 soup.select('div [class="content"]')
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容