数仓之新老访客标记实现

在数据仓库处理中,新老访客标记是基础需求。通过设备和账号绑定形成全局id,然后利用每日滚动的id mapping表,结合行为日志数据,确定新访客并进行标记。在大数据开发中,理解需求、SQL技能和数据敏感度至关重要,数据通常按天分区存储,处理方式与传统SQL不同,需逐步适应。

数仓之新老访客标记实现

1. 背景

  1. 在数仓的处理需求中,当对数据做了设备和账号绑定处理,也就是id mapping处理之后。接下来的一个基础需求之一就是新老访客标记。
  2. 注意,将用户设备和用户账号绑定,想办法形成一个全局id是后续所有数据分析的基础。不管是已登录账号和未登录账号使用设备访问,都需要形成一个唯一的全局通用id,有的公司称之为guid
  3. guid处理好之后,就是统计基础指标,如新老访客等
    注意,在大数据或者任何其他技术岗位的开发中,了解清楚需求并且跟需求方二次确认无误后,再进行开发,这样是避免需求理解错误造成开发损失的最佳方法

2. 实现思路

  1. 如果做了id mapping,则每日滚动可以生成一个类似如下的表
  • 这里使用结构化数据代表表,简便一些
  • 下面是t-1日,也就是2020-10-19滚动形成的id mappping结果表
deviceid,uid,score
d01,u01,100
d01,u02,80
d02,u03,60
d06,null,
  1. 下面是t日,也就是2020-10-20的行为日志数据
deviceid,uid
d01,u01         
d02,u03         
d02,            
d02,u07         
d04,u04         
d05,u01         
d06,            
d07,            

  1. 整体数据说明和标记解决思路如下
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值