Python网络爬虫---scrapy的选择器Xpath

Xpath简介

一般来说,使用id、name、class等属性就能对节点进行定位就能解决绝大部分解析需求,但有时候遇到以下情况,使用Xpath就更方便:

  • 没有id、name、class等

  • 标签的属性或者文本特征不显著

  • 标签嵌套层次太复杂

Xpath是XML Path的简介,基于XML树状结构,可以在整个树中寻找锁定目标节点。由于HTML文档本身就是一个标准的XML页面,因此我们可以使用XPath的语法来定位页面元素。

Xpath定位方法

一、Xpath路径

image.png

Xpath路径案例

定位节点

#查找html下的body下的form下的所有input节点
/html/body/form/input

#查找所有input节点
//input

通配符*选择未知的节点

#查找form节点下的所有节点
//form/*#查找所有节点//*

#查找所有input节点(input至少有爷爷辈亲戚节点)

//*/input

二、使用索引

如果筛选时元素时出现多个节点,但我们想确定唯一节点。可以使用类似于列表索引的方式精确定位。

案例

#定位 第8个td下的 第2个a节点
//*/td[7]/a[1]

#定位 第8个td下的 第3个span节点
//*/td[7]/span[2]

#定位 最后一个td下的  最后一个a节点
//*/td[last()]/a[last()]

三、使用属性

为了让定位更精准,跟使用索引类似,我们要增加信息量,那么还可以使用属性。@符号是属性符

#定位所有包含name属性的input节点
//input[@name]

#定位含有属性的所有的input节点
//input[@*]

#定位所有value=2的input节点
//input[@value='2']

#使用多个属性定位
//input[@value='2'][@id='3']
或者//input[@value='2' and @id='3']

四、常用函数

除了索引、属性外,Xpath还可以使用便捷的函数来增强定位的准确性。下面试常用的几个函数:


image.png
<a class="menu_hot" href="//www.greatytc.com/ads/auth/promote.html">应用推广</a>
#定位href属性中包含“promote.html”的所有a节点
//a[contains(@href,'promote.html')]

#元素内的文本为“应用推广”的所有a节点
//a[text()='应用推广']

#href属性值是以“/ads”开头的所有a节点
//a[starts-with(@href,'/ads')]

五、Xpath轴

这部分类似BeautifulSoup中的sibling、parents、children方法。

image.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,771评论 19 139
  • 《草虫的村落》我真的不知道怎么上?课文读了多遍,教参看了多遍,案例参考了几个,可就是找不到这一课的感觉,眼看就上课...
    孤心如水阅读 3,401评论 0 0
  • 当你小我很疯狂的时候,你是阻挡不了你的疯狂的列车的,唯一的办法就是撤燃料,也就是你的情绪。你可以选择不说,不想,不...
    硕果累累19134阅读 1,287评论 0 1
  • 周小代:张海,今天不能和你一起吃饭了,抱歉啊! 张 海:你天天吵着说减肥很辛苦,让我请你吃饭,好不容易发了奖金我...
    东山晴雪阅读 2,622评论 5 5
  • 因为做了大枣,认识的人开始多了起来,经人介绍,有幸认识了做电商取得很大成就一位老总。 这位是专职做大码女装的,已经...
    大地_行者阅读 3,723评论 0 3