京东数坊人群追踪报告数据无法下载

最新推荐文章于 2025-11-24 18:39:46 发布

原创最新推荐文章于 2025-11-24 18:39:46 发布 · 363 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#selenium #数据分析

京东数坊专栏收录该内容

6 篇文章

订阅专栏

本文介绍如何通过模拟登录和正则表达式清洗网页源码，实现自动获取京东数坊的人群追踪报告数据，从而节省手动操作的时间成本。

部署运行你感兴趣的模型镜像

背景

实现自动获取网页内容，节省复制粘贴时间成本

在这里插入图片描述

模拟登陆

def Land_Stage(url):  # 设置浏览器并打开
    option = webdriver.ChromeOptions()
    prefs = {'profile.default_content_settings.popups': 0}
    option.add_experimental_option('prefs', prefs)
    driver = webdriver.Chrome(options=option)
    driver.implicitly_wait(20)
    driver.get(url)
    return driver

定位到目标报告，查看报告并拿到网页源码

pather = '//div[contains(text(), {})]/parent::td/../td[@class="textLeft process"]/div/div[1]'.format(fname)
    driver.find_element_by_xpath(pather).click()
    page = driver.page_source

利用正则，简单粗暴清洗网页源码，拿到目标数据

def Extraction_Data(page):  # 清洗为字典
    goal = re.findall('推广目标：(.*?)<', page)
    reach = re.findall('活动触达总人数.*?<span class="size">(.*?)<', page)
    buy = re.findall('购买人数<br><span>(.*?)</span>', page)
    B_rate = re.findall('购买率<br><span>(.*?)</span>', page)
    new_buy = re.findall('新客人数<br><span>(.*?)</span>', page)
    old_buy = re.findall('老客人数<br><span>(.*?)</span>', page)
    Touch_no_buy = re.findall('触达未购人数<br><span>(.*?)</span>', page)
    Touch_buy = re.findall('触达已购人数<br><span>(.*?)</span>', page)
    new_buy_rate = re.findall('新客购买率<br><span>(.*?)</span>', page)
    old_buy_rate = re.findall('老客复购率<br><span>(.*?)</span>', page)
    old_buy_Proportion = re.findall('老客占比<br><span>(.*?)</span>', page)
    new_buy_Proportion = re.findall('新客占比<br><span>(.*?)</span>', page)
    data = {
        '推广目标：': goal,
        '触达总人数：': reach,
        '总购买人数：': buy,
        '购买率：': B_rate,
        '新客人数：': new_buy,
        '老客人数：': old_buy,
        '触达已购：': Touch_buy,
        '触达未购：': Touch_no_buy,
        '新客购买率：': new_buy_rate,
        '老客购买率：': old_buy_rate,
        '新客占比：': new_buy_Proportion,
        '老客占比：': old_buy_Proportion
    }
    return data

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

京东数坊人群追踪报告数据无法下载

背景

模拟登陆

利用正则，简单粗暴清洗网页源码，拿到目标数据

1 条评论