爬虫3

xpath

动态加载：使用json串转换

静态页面：使用正则，xpath

结构化数据：先有结构，在有数据　json path

非结构化数据：先有数据，再有结构正则，xpath

什么是xpath：是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

什么是xml:是传输数据而并非显示数据

xpath 语法的目的，找到节点，提取信息

xpath 语法

使用xpath　语法提取数据

什么是xpath：是一门在 XML 文档中提取信息数据的语言，可以用来在xml文档中对元素（标签）的属性进行遍历

xml:是一个可扩展的标记语言，语法和ｈｔｍｌ相像，里面的节点可以自己定义，被设计的目的用来进行数据的传输和保存

以起点中文网为例

notename:节点：查找出html中标签名为notname的节点

/ 表示从根节点的地方开始查找，(相对性的)

// 表示从任意位置匹配出你想要的节点

. 表示选取当前节点

..　表示选取当前节点的父节点

@ 表示选择属性

text() 表示取标签文本内容

notename[1]:表示标签名为的一个的节点

notename[last()]:表示取最后一个

notename[last()-1]:表示取倒数第二个

最后编辑于：2018.11.23 08:20:33

爬虫3