登录注册写文章

[小技巧]Chrome中拷贝XPath的方法

[小技巧]Chrome中拷贝XPath的方法

在用Scrapy爬取数据时需要用XPath确定路径，对于网页结构不熟悉的童鞋，需要认真找标签之间的嵌套关系，来确定所要提取内容的路径。一个简单的方法是，可以直接用Chrome的检查来Copy这个XPath的路径。

方法见这篇文章《再谈Scrapy抓取结构化数据》

在文章中提到的小技巧，就是使用Chrome“检查”-- 找到要抓取的内容，右键 “Copy” -- “Copy XPath”

但是Copy出来的路径，是不能直接使用的，它默认是从最近的一个带id的标签开始。如果没有它会从 html标签开始计算路径。

以“小猪短租” 的房租信息为例：

http://sh.xiaozhu.com/search-duanzufang-p1-0/

copy 房租价格的XPath路径是：

//*[@id="page_list"]/ul/li[1]/div[2]/span[1]/i

显然循环点选取在li (每个租房信息都包含在一个 li 中) 。在循环中路径就应该写：

info.xpath('div[2]/span[1]/i/text()')

我录了一段屏，看一下：

最后编辑于：2017.12.05 09:46:02

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,267评论 3赞 44
《Learning Scrapy》（中文版）第3章爬虫基础
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5章...
SeanCheney阅读 15,180评论 13赞 61
《Learning Scrapy》（中文版）第2章理解HTML和XPath
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
SeanCheney阅读 11,221评论 5赞 67
《利用 Python36，基于 Scrapy 框架的爬虫思路》
《利用 Python36，基于 Scrapy 框架的爬虫思路》（一）引言利用爬虫抓取网页数据已经是常见技能，...
yannis_lau阅读 1,601评论 0赞 3
iOS开发常用技能
我把我觉得很好用的方法技能无私奉献一下吧。欢迎收藏关注。 1.删除某个view上面的所有视图 [self.jggV...
L泽阅读 729评论 0赞 1

5赞6赞

1赞赏

手机看全文