爬虫高级应用(15. 基于Charles抓包软件抓取手机APP数据)

本文详细介绍了如何通过Charles抓取手机App数据,包括配置安装、证书设置、手机代理及实战使用爱吾游戏宝盒数据的教程。重点演示了如何设置代理、编辑请求和利用Python爬虫获取并解析数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

写在前面

移动App多使用异步的方式从服务端获取数据,抓取数据之前,要先分析移动App用于获取数据的URL,然后才可以使用requests等网络库去抓取

本章的主要内容:
    1、抓取App数据的原理
    2、Charles和mitmproxy
    3、在PC上安装整数,以及移动端安装和信任整数
    4、在手机端设置代理
    5、监听HTTP/HTTPS数据
    6、编辑请求信息
    7、mitmweb的基本使用方法
    8、如何结合mitmdump与mitmweb编写实时Python爬虫

配置安装Charles

安装Charles

链接: Charles官方下载网址.
在这里插入图片描述
博主安装的是Windows版本

下载相关证书

电脑证书:

安装Charles后,进行如下操作
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

手机证书:

设置代理
  1. 设置SSL代理设置
    在这里插入图片描述
    在这里插入图片描述
  2. 设置与手机的代理

在这里插入图片描述
在这里插入图片描述
下面为OPPO手机设置代理方式:

1. 手机连上电脑的wifi

在这里插入图片描述

2. 使用cmd->ipconfig获取电脑的ip地址

在这里插入图片描述

3.设置手机的代理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
设置成功后,进入浏览器等待一下,会出现如下的选项对话框,点击Allow即可
在这里插入图片描述
此时代理设置成功,但是主要任务还没有做,前面都是必要的手续
在浏览器输入chls.pro/ssl
即可下载Charles所需的证书
设置为信任即可
在这里插入图片描述
到此为止,电脑、手机证书和代理都完毕。

实操案例:抓取手机APP爱吾游戏宝盒数据

首先,清空其中的条目,因为Charles不仅再抓取手机的包,还在抓取电脑的包,电脑暂时不要访问页面或者打开应用,否则会弹出别的条目干扰。
在这里插入图片描述
此时我的手机打开了爱吾游戏宝盒,就弹出了好多条目,只需要找到哪一个条目中的数据是你需要的,保存url调用requests库请求url即可,接下来就是解析的工作等等。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
确定了内容是需要抓取的后,开始编写python爬虫
在这里插入图片描述
需要把上面response返回的Contents作为data加入编码中

import requests
# data从request的Text中获取
data = '''Serial=ffffffff-d2d2-eaad-ffff-ffffef05ac4a&VersionCode=2309&UserId=8224CBEB9F5FF772&isLogin=1&Page=1&TagName=
%E8%A7%92%E8%89%B2&TagId=1&Style=0&Time=1644220741&Sign=3b94ec9cd4b81ff5d76c2acb00c649e8'''
headers = {
    'accept-language':'zh-CN,zh;q=0.8',
    'user-agent':'okhttp-okgo/jeasonlzy',
    'content-type':'application/x-www-form-urlencoded',
    'Host':'service.25game.com'
}
# 抓取角色游戏信息--失败
# 无法解析:实时获取的数据
response = requests.post('https://service.25game.com/v2/App/AppList.aspx',headers=headers,data=data)
print(response.text)
# 抓取用户信息(成功)
data = '''Serial=ffffffff-d2d2-eaad-ffff-ffffef05ac4a&VersionCode=2309&UserId=8224CBEB9F5FF772&isLogin=1&Time=1644220737&Sign=127929932b6de290fe6ac0585bcfd054'''
response = requests.post('https://service.25game.com/v2/User/UserInfo.aspx',headers=headers,data=data)
print(response.text)
# 抓取移植游戏列表(成功)
data = '''Serial=ffffffff-d2d2-eaad-ffff-ffffef05ac4a&VersionCode=2309&UserId=8224CBEB9F5FF772&isLogin=1&Page=1&Time=1644221449&Sign=c960123b24a715860970f0263f0d6ec3'''
response = requests.post('https://service.25game.com/v2/DiyPage/EmuGame.aspx',headers=headers,data=data)
print(response.text)

注意:像某东JD这种应用大多还需要手机APP登录后的Cookie,同样,Charles可以获取cookie,别忘了在python爬虫中加入到请求头中。

<think>我们正在处理一个关于使用Python爬虫抓取手机App数据的问题。用户希望得到教程指导。 根据系统指令,我们需要: 1. 使用中文回答 2. 行内数学表达式用$...$,独立公式用$$...$$ 3. 正确使用LaTeX语法(但本问题可能不涉及数学公式,所以可能不需要) 4. 生成相关问题 5. 在引用的段落末尾添加引用标识(注意:我们只能引用提供的三个引用内容,并且要自然添加) 提供的引用内容: 引用[1]:介绍了APP数据抓取的基本流程、工具和Python依赖。 引用[2]:提供了一个豆瓣网页数据抓取的示例,但用户需要的是APP数据抓取,所以这个引用可能不太相关,但我们可以参考其请求和解析的方法。 引用[3]:展示了一个APP接口请求的示例,其中包含了一些参数。 用户需求:使用Python编写爬虫抓取手机App数据。 根据引用[1],我们可以总结出抓取APP数据的一般步骤: 1. 安装并配置抓包环境(如Fiddler、Charles、Mitmproxy) 2. 抓取真实APP请求并分析接口 3. 提取必要的参数(如Headers、Token、Sign等) 4. 使用Python重构请求,实现自动化数据抓取 5. 存储结果(CSV、数据库、JSON等) 因此,我们的回答应该围绕这些步骤展开。 注意:由于用户要求的是教程,我们将按照步骤进行讲解,并尽可能提供代码示例。 另外,由于引用[3]提供了一个具体的请求参数示例,我们可以参考它来展示如何构造请求。 步骤详细说明: 第一步:环境与工具准备 - 模拟器:用于在电脑上运行手机APP(如夜神模拟器、雷电模拟器等) - 抓包工具:用于捕获APP发出的网络请求(如Charles、Fiddler、Mitmproxy) - 安装Python依赖:requests(用于发送HTTP请求)、mitmproxy(用于中间人攻击抓包,也可以用于脚本扩展)等 第二步:配置抓包环境 - 以Charles为例:安装Charles,设置代理(通常为电脑的IP和8888端口),然后在模拟器或手机中设置相同的代理。 第三步:抓取并分析APP请求 - 启动抓包工具,然后在APP中进行操作,抓包工具会记录所有的网络请求。 - 找到我们关心的数据请求,分析其请求方法(GET/POST)、URL、请求头、请求参数等。 第四步:提取必要参数 - 通常APP的接口会有一些验证参数,如Token、Sign(签名)等,这些需要从请求中提取并分析生成规则。 第五步:使用Python重构请求 - 使用requests库模拟请求,注意携带必要的请求头和参数。 第六步:存储数据 由于引用[2]是网页抓取的例子,我们可以参考其请求和解析的方式,但APP接口返回的通常是JSON数据,所以解析会更简单。 下面我们按照这些步骤来编写教程。</think>### Python爬虫抓取手机App数据教程 以下是使用Python抓取手机App数据的详细步骤,基于引用[1]的核心流程: #### 1. 环境准备 - **抓包工具**(用于捕获App网络请求): - Charles(支持HTTPS代理)[^1] - Fiddler(轻量级工具) - Mitmproxy(支持Python脚本扩展)[^1] - **模拟器**(可选): - 夜神模拟器/Nox - 雷电模拟器/LDPlayer - **Python库安装**: ```bash pip install requests mitmproxy rich prettytable ``` #### 2. 抓包分析接口 1. 配置抓包工具的代理(通常为`IP:8888`) 2.手机/模拟器设置中配置相同代理 3. 操作目标App,观察抓包工具捕获的请求 4. 定位数据接口(通常返回JSON格式): ```http GET /api/data?timestamp=1625550000&sign=afe4c... HTTP/1.1 Host: app.example.com Authorization: Bearer xxxxx User-Agent: Dalvik/2.1.0 ``` #### 3. 提取关键参数(以引用[3]为例) ```python params = { 'timestamp': '1625550000', # 时间戳 'phoneBrand': 'Meizu', # 设备品牌 'platform': '1', # 平台标识 'sign': 'afe4c...' # 加密签名[^3] } headers = { 'Authorization': 'Bearer xxxxx', 'User-Agent': 'AppClient/7.2.1' } ``` #### 4. Python重构请求(示例代码) ```python import requests import json url = "https://app.example.com/api/data" params = { "timestamp": "获取动态时间戳", "sign": "计算签名值" # 需逆向分析签名算法 } headers = { "User-Agent": "Mozilla/5.0 (Linux; Android 10)", "Authorization": "Bearer token_value" } response = requests.get(url, params=params, headers=headers) if response.status_code == 200: data = response.json() print(json.dumps(data, indent=2, ensure_ascii=False)) ``` #### 5. 数据处理与存储 ```python # 存储到JSON文件 with open('app_data.json', 'w', encoding='utf-8') as f: json.dump(data, f) # 存储到CSV(示例) import csv with open('data.csv', 'w', newline='') as csvfile: writer = csv.DictWriter(csvfile, fieldnames=data[0].keys()) writer.writeheader() writer.writerows(data) ``` #### 关键注意事项 1. **动态参数处理**:多数App接口使用动态token和签名,需逆向分析生成逻辑 2. **反爬机制**: - 使用随机请求头(`fake_useragent`库) - 添加请求延迟(`time.sleep(random.uniform(1,3))`) 3. **HTTPS证书验证**:抓包时需安装抓包工具的根证书 4. **法律合规性**:确保遵守目标App的`robots.txt`和服务条款
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值