Python爬虫-青客

青客是5.15爬出来的,事实证明做完一个案例就写下来是很有必要的,因为才3天我就不记得当时的纠结了...心态太好也比较容易失忆的!

总之这个是比较好爬的,虽然它的代码写的有点怪,什么fR,easyCon之类,不过这些都是表象!
就是老老实实的用手把其中一个房源的列表li下面的都写下来,要爬的几个点:价格,描述,会员价用红笔划出来)


图片发自简书App

再老老实实的把每层结构都写下来。——我居然不记得[@class="..."]要用中括号括起来,被程工指出了。反正我也经常指出人家用了中文符号当英文这种错误,所以我很轻易的原谅了自己。
网站截图:

3.png

代码

#coding:utf-8
import requests
from lxml import etree
import random

url='http://hz.qk365.com/list/p1'
def getReqHeaders():
    """
    功能:随机获取HTTP_User_Agent
    """
    user_agents=[
    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"]
    user_agent = random.choice(user_agents)
    req_headers={'User-Agent':user_agent}
    return req_headers

html=requests.get(url,headers=getReqHeaders()).content
selector=etree.HTML(html)
infos=selector.xpath('//*[@class="easyList"]/li')

list_dict=[]
for info in infos:
    item={}
    price=info.xpath('div[@class="coverBox"]/em[@class="fR"]/b/text()')[0]
    address=info.xpath('div[@class="easyCon"]/p[@class="easySub"]/text()')[0]
    price2=info.xpath('div[@class="easyCon"]/div[@class="easyMember"]/span/i/text()')[0]
    print price, '      ',address, '      ',price2
    #item['name']=name
    #item['address']=address
    #item['price']=price
    #list_dict.append(item)
#print list_dict

这里只是第一页,也没做城市列表。本来想收拾一下的,但已经失去挑战感了。就这样存稿吧。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 174,497评论 25 709
  • 2017.10.11(232~35/99)(焦点分享92) 阴冷的天,淅沥的雨,没能阻挡回归爱的港湾的那颗...
    方正省阅读 517评论 3 5
  • 看到一篇文章,叫《动物的忧伤》,讲的是动物如果离群索居就会孤独而死。 比如,“蜜蜂、蚂蚁和白蚁。在孤独的环境里,它...
    余先飞阅读 684评论 0 0
  • 文/小包总。 2017.11.29星期三 复盘32天 最近身边的一个朋友一直抱怨职场的勾心斗角,没有什么可...
    首席成长官小包总阅读 338评论 0 0
  • 说新年寄语之前我一定要扯一下八卦,今天用一副算半个古董的易经扑克研究了好久八卦,其实看完寻龙诀的那天我就开始鼓捣这...
    ClaireJ阿章阅读 305评论 0 2