爬虫3

xpath

动态加载:使用json串转换

静态页面:使用正则,xpath

结构化数据:先有结构,在有数据 json  path

非结构化数据:先有数据,再有结构 正则,xpath

什么是xpath: 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

什么是xml:是传输数据而并非显示数据

xpath 语法的目的,找到节点,提取信息

xpath 语法

使用xpath 语法提取数据

什么是xpath:    是一门在 XML 文档中提取信息数据的语言,可以用来在xml文档中对元素(标签)的属性进行遍历

xml:是一个可扩展的标记语言,语法和html相像,里面的节点可以自己定义,被设计的目的用来进行数据的传输和保存

安装lxml: pip3 install lxml

以起点中文网为例

notename:节点:查找出html中标签名为notname的节点

/ 表示从根节点的地方开始查找,(相对性的)

// 表示从任意位置匹配出你想要的节点

. 表示选取当前节点

.. 表示选取当前节点的父节点

@ 表示选择属性

text() 表示取标签文本内容

notename[1]:表示标签名为的一个的节点

notename[last()]:表示取最后一个

notename[last()-1]:表示取倒数第二个

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容