如何用XiaohongshuSpider爬取小红书数据?超详细小白教程

如何用XiaohongshuSpider爬取小红书数据?超详细小白教程

【免费下载链接】XiaohongshuSpider 小红书爬取 【免费下载链接】XiaohongshuSpider 项目地址: https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

XiaohongshuSpider是一款功能强大的小红书爬取工具,能帮助用户轻松获取小红书平台的图片等数据。本文将为你详细介绍这个项目的使用方法,让你快速上手,高效爬取所需内容。

1. 项目目录结构及介绍

XiaohongshuSpider项目结构清晰,主要包含以下文件和文件夹:

  • app_appium.py:使用Appium进行自动化操作的Python脚本,用于模拟登录小红书应用、刷新页面等操作。
  • app_mitmproxy.py:配置MitmProxy代理的Python脚本,用于截获和分析网络请求,提取图片URL等重要数据。
  • LICENSE:许可证文件,遵循相关开源协议。
  • README.md:项目说明文档,包含项目简介、设想方案、遇到的问题及解决方案等。
  • picture/:存放项目相关图片,如操作截图等。

2. 项目实现方案详解

2.1 前期尝试与问题解决

在项目实现初期,尝试使用Charles和Fiddler进行抓包,但都出现了网络错误的问题,如图所示:

小红书爬取工具抓包网络错误截图

解决方法是通过root权限,将证书放入系统认可处,推荐在模拟器中使用。

2.2 Appium自动化操作

使用Appium Desktop和Appium Inspector进行相关配置和操作。首先查看包信息,如图:

小红书App包信息查看截图 小红书App包信息详情截图

然后在Appium Inspector中进行配置,配置信息如下:

{
  "platformName": "Android",
  "deviceName": "127.0.0.1:62001",
  "platformVersion": "7.1.2",
  "appPackage": "com.xingin.xhs",
  "appActivity": "com.xingin.xhs.activity.SplashActivity"
}

Appium Inspector配置界面如图:

小红书爬取工具Appium配置截图

配置完成后start session,之后进行脚本录制。但在使用过程中遇到了一些问题,比如账号密码登录提示异常、多次重复登录出现异常提醒等。

2.3 MitmProxy抓包分析

通过Fiddler和夜神模拟器进行抓包分析,得到需要的图片url,如图:

小红书爬取工具Fiddler抓包截图

从抓包结果可以看出,App通过向特定链接发送请求得到文章信息,其中包含图片列表,如图:

小红书爬取工具文章图片列表截图

图片列表中包含每个图片的url等信息,如图:

小红书爬取工具图片URL信息截图

然后使用MitmProxy来执行Python代码,实现对图片文件的保存,MitmProxy界面如图:

小红书爬取工具MitmProxy运行截图

2.4 最终实现方案

最终采用appium+mitmproxy+fiddler+夜神模拟器的方案。通过Fiddler和夜神模拟器抓包分析得到图片url,使用MitmProxy执行代码保存图片,Appium不断刷新页面获取更多数据。

3. 项目启动步骤

3.1 环境搭建

确保安装有必要的环境和库,如Appium、requests、mitmproxy等。

3.2 证书安装

对于模拟器或实际设备,需要正确处理SSL证书,可参考相关教程将证书安装到系统认可处。

3.3 启动项目

克隆仓库:

git clone https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

分别运行Appium和MitmProxy相关脚本,即可开始小红书数据的爬取。

4. 注意事项

  • 模拟器配置:建议按文档使用模拟器,注意模拟器与真实设备行为的差异可能导致的调试问题。
  • 登录问题:使用账号密码登录时可能会出现异常,可尝试使用验证码登录或其他方式解决。
  • 合法合规:遵守法律法规和平台的使用条款,合法合规地进行数据爬取。

通过以上步骤,你可以开始探索并运行XiaohongshuSpider这个小红书爬取项目,轻松获取你所需的数据。

【免费下载链接】XiaohongshuSpider 小红书爬取 【免费下载链接】XiaohongshuSpider 项目地址: https://gitcode.com/gh_mirrors/xia/XiaohongshuSpider

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值