余光929-优快云博客

原创借浏览器之手，解反爬之困

本文提出了一种“半自动化协议爬虫”策略，通过结合浏览器自动化工具（如Puppeteer/Selenium）和传统爬虫技术，有效解决复杂反爬机制下的数据采集问题。该方法的核心思路是：让浏览器完成登录状态维护和动态参数生成，然后拦截并复用这些原生请求信息，从而绕过加密验证等反爬措施。相比传统逆向破解方式，该方案具有避免JS逆向、天然适配动态渲染、兼容性强等优势，尤其适合小规模、短周期的爬取需求。文章详细阐述了实现步骤、技术要点及注意事项，为应对复杂反爬场景提供了一种高性价比的解决方案。

2025-10-18 10:23:59 1472

原创电商 RPA 实战分享：Node.js 实现 Shein 数据采集（1 年经验视角）

本文分享了使用Node.js实现Shein平台数据采集的实操方法。核心思路包括：通过浏览器抓包分析Shein数据接口，发现仅需cookie字段即可获取商品数据；使用Puppeteer模拟登录实现Cookie自动获取和持久化存储；采用主控脚本+子爬虫的架构设计，主脚本负责Cookie管理、频率控制等通用功能，子爬虫专注业务逻辑。该方法简化了请求处理，实现了自动化采集流程，具有解耦工具与业务、统一频率控制、容错性强等优势，适合电商公司长期复用。文章还提供了代码实现示例和扩展场景建议。

2025-10-14 15:02:10 1048

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 借浏览器之手，解反爬之困

原创 电商 RPA 实战分享：Node.js 实现 Shein 数据采集（1 年经验视角）

空空如也

空空如也

原创借浏览器之手，解反爬之困

原创电商 RPA 实战分享：Node.js 实现 Shein 数据采集（1 年经验视角）