在京东联盟做返利项目或者商品推荐时,我们常常需要批量提取高佣商品信息。手动查看不仅效率低,而且容易遗漏。本文将介绍一个基于 Playwright + MongoDB 的自动化采集脚本,能帮你自动打开浏览器、筛选定向高佣、提取商品数据,并保存到数据库中,供后续使用。
目录
一、代码简介
脚本功能:
-
模拟登录并保持会话(使用浏览器用户数据)
-
自动进入高佣商品页面
-
自动滚动并采集商品列表信息
-
翻页采集多页商品
-
自动去重(MD5)
-
数据持久化保存到 MongoDB
适用于:
做京东推广、联盟返利、推荐引擎、竞品分析等场景
二、技术栈与依赖
-
Playwright:强大的浏览器自动化框架,支持反检测、模拟滑动点击等。 -
MongoDB:非关系型数据库,适合存储半结构化数据如商品卡片信息。 -
hashlib:生成商品唯一标识(MD5),防止重复插入。
安装依赖
pip install playwright pymongo
playwright install
三、核心功能解析
1. 初始化浏览器(防检测)
def init_browser():
playwright = sync_playwright().start()
browser = playwright.chromium.launch_persistent_context(
executable_path=CHROME_EXECUTABLE_PATH, # 自定义路径
user_data_dir=USER_DATA_DIR, # 保持登录态
&

最低0.47元/天 解锁文章
278

被折叠的 条评论
为什么被折叠?



