手把手找js加密代码(链家地铁找房--authorization)

通过链家的地铁找房功能爬取地铁线路以及小区数据时,会碰到一个authorization参数,这个参数每次请求都会变化,而且不带也会请求失败,因此可初步判断是一个js加密参数。


第一次请求.png

第二次请求.png
我们通过chrome浏览器的断点功能找authorization的加密js代码

首先,抓包找到链接地址,点进去


抓包找到js文件.png

然后,格式化代码并打上断点


格式化代码并打上断点.png

点击地铁路线,进行网页刷新
点击旁边的地铁线路.png

Call Stack为函数框,Local为参数框,进入debugger模式后,重点是找到加密函数所在位置,一般逻辑是看在某个函数之前,我们所找的参数不存在,那这个函数就是我们要找的(函数调用是从下到上)


函数与参数所在位置.png

最后一个函数为send,参数栏没有发现authorization,但是我们在console中把t打印出来,发现t中是包含了authorization的,因此需往前推继续找加密函数
console输出参数.png

通过这样往前递归查找,我们发现第二个ajax函数之后,就不再出现我们的authorization参数了,因此可定位authorization的加密代码在第二个ajax里
加密代码.png

同时发现ajax中存在l.authorization = s,var s = this.getMd5(l)两行代码,那么可确定authorization是被这个this.getMd5函数加密的了
点击函数.png

点击进入这个函数,加上断点,并重新进入debugger模式
加上断点继续运行.png

可以看到输入时一个字典,中间参数i是一个字符串,且i需要继续被n函数处理


加上断点重新运行.png

进入n函数,发现是一系列的匿名函数与嵌套调用,继续研究需要耗费大量时间。我们仔细看一下n的名字,发现是md5加密,而python本身自带md5加密库,我们只需记录js代码的输入与输出,并与python的md5加密结果比对是否一致即可
n函数.png

js中md5函数的输入与输出
js输入与输出.png

python中md5加密结果
python输入与输出.png

比较发现结果一致,再继续运行断点到send,输出t,发现参数与我们计算出的一致
t.png

理一下最终的代码

import json
import time
import hashlib

import requests


# ------------------------------------------采集5号线所有站点的经纬度--------------------------------------------------

def get_md5(txt):
    """md5加密函数"""
    
    m = hashlib.md5()
    m.update(txt.encode('utf-8'))
    return m.hexdigest()


def get_line_site(url):
    """请求链接"""
    
    headers = {'Accept': '*/*',
               'Accept-Encoding': 'gzip, deflate, br',
               'Accept-Language': 'zh-CN,zh;q=0.9',
               'Connection': 'keep-alive',
               'Host': 'ajax.lianjia.com',
               'Referer': 'https://gz.lianjia.com/ditu/',
               'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 '
                             '(KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
    r = requests.get(url, headers=headers)
    print(r.status_code)
    return r


def get_url():
    """拼接链接"""
    
    url = 'https://ajax.lianjia.com/map/subway/station/?city_id=440100&line_id=110460685&request_ts={' \
          'request_ts}&source=ljpc&authorization={authorization}'
    request_ts = int(time.time() * 1000)
    md5_data = "vfkpbin1ix2rb88gfjebs0f60cbvhedlcity_id=440100line_id=110460685request_ts={request_ts}".format(
        request_ts=request_ts)
    authorization = get_md5(md5_data)
    url = url.format(request_ts=request_ts, authorization=authorization)
    return url


if __name__ == '__main__':
    line_url = get_url()
    print(line_url)
    res = get_line_site(line_url)
    items = res.json()['data']
    with open('lon_and_lat.txt', 'w') as f:
        json.dump(items, f)

    print(items)

总结

1.多用断点调试,调试时重点关注输入、输出以及一些特殊名字(比如rsa、md5、base64等常用加密)
2.到加密部分,搞清楚使用的是哪种加密方式,优先使用python库代替
3.了解常用的加密原理很重要

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。