用户行为分析-埋点实时数仓实践(附用户关联源码)

原创

已于 2022-05-20 18:12:25 修改 · 5.7k 阅读

36 ·

CC 4.0 BY-SA版权

文章标签：

#大数据 #数据分析

于 2020-11-18 21:58:07 首次发布

本文重点讲述埋点的数据模型、格式、实时采集、加工、存储及用户关联。介绍了业界流行的事件、用户模型，数据存储使用ClickHouse的不同引擎。阐述了事件埋点和用户关联的格式，还说明了架构图、动态添加ClickHouse列、用户关联逻辑及批量写入方法，并附上用户关联源码。

一、概述

埋点采集、用户行为分析、实时数仓、IdMapping

此文重点讲述埋点的数据模型、数据格式、数据实时采集、加工、存储及用户关联。关于用户行为分析的概念、意义以及埋点相关的东西此文不作赘述

二、数据模型

业界比较流行的事件、用户模型；即：

* who: 设备ID、登录ID
* when: 事件发生时间、上报时间
* where: 设备环境、网络环境、业务环境等
* what: 事件标识、事件参数

我们的数据存储也只有events和users两张表

events：不会变的日志表且数据量大；我们用ClickHouse的分布式表存储

users：我们只有几百万用户，且做用户关联时会频繁根据用户id查询、更新，而且做数据分析时要和事件表关联；我们用ClickHouse的mysql Engine存储

events建表语句：

-- 事件local表;按日期周分区
CREATE TABLE analytics.events_replica ON CLUSTER ck_cluster(
	`track_id` String COMMENT '埋点',
	`event_id` Int64 COMMENT '事件id',
	`distinct_id` String COMMENT '设备id/用户中心id',
	`user_id` Int64 COMMENT '用户表id',
	`type` String COMMENT '埋点类型',
	`event` String COMMENT '埋点事件',
	`date` Date COMMENT '埋点日期',
	`time` DateTime64 ( 3, 'Asia/Shanghai' ) COMMENT '埋点上传时间',
	`receive_time` DateTime64 ( 3, 'Asia/Shanghai' ) COMMENT '埋点接受时间',
	`day` Int64 COMMENT '埋点距1970/01/01的天数',
	`week_id` Int64 COMMENT '埋点距1970/01/01的周数',
	`month_id` Int64 COMMENT '埋点距1970/01/01的月数'
	其他业务公共字段
	所有事件属性
	
) ENGINE = ReplicatedMergeTree ( '/clickhouse/tables/analytics/events_replica/{shard}', '{replica}' )
PARTITION BY toMonday ( date ) 
ORDER BY
	( track_id ) SETTINGS index_granularity = 8192

-- 事件分布式表
CREATE TABLE analytics.events ON CLUSTER ck_cluster
AS analytics.events_replica ENGINE =Distributed('ck_cluster', 'analytics', 'events_replica', rand())

users建表语句：

-- ClickHouse

最低0.47元/天解锁文章

17 条评论

soltex 2023.07.18
麻烦问下，原始的event数据怎么进行存储的？也是存储在ck里的么？另外，ck如果动态增加列的话，那是否新增的列能加入到order by里，因为需要增加索引

2301_76916473 2023.05.29
这个mysql引擎的ck表不能更新吧

2301_76916473 2023.05.29
能举个例子么，比如一个新用户使用别人的设备浏览，怎么判断它不是老用户呢

Shine_chrysan 2022.03.25
您好，想请教一下，由于我们也是使用的神策SDK采集埋点，在使用spark streaming解析埋点数据的时候，由于properties字段是嵌套的json，无法在流式处理的时候展开从而形成大宽表导入，因为无法确定properties的schema，请问下您在这部分是如何处理的呢，感谢

「已注销」 2021.03.23
请教下像神策、GrowingIO这样的埋点方案，app接入他们的sdk，调用他们的api实现埋点数据落地，会有大的并发吗？
- xianbin.yang回复「已注销」 2021.03.23
  前端埋点可以批量发送到服务器端；服务器端接收到后追加的本地文件；这样性能会比较高

Adjango 2021.02.20
您好，有点问题想问您嘞，怎么联系呀？第一个是上报的json是以什么格式存在ck中的呢？第二个是如果业务出现新增的埋点，是否就要像5一样去加列？这一步没太看懂原理想请教一下嘞
- MZ543247回复xianbin.yang 2023.10.11
  这一步您有实现的代码吗?有技术群或者联系方式吗,想跟您请教下
- xianbin.yang回复Adjango 2021.02.22
  不是nested；通过sql ddl添加
- Adjango回复xianbin.yang 2021.02.22
  json是以nested的格式存储的么？加列的具体方式是怎么加嘞？
- xianbin.yang回复Adjango 2021.02.21
  ck中是以大宽表存储的；新增了埋点的事件属性，需要加列

 方秀生 2020.12.16
牛X大佬，膜拜，茅塞顿开、醍醐灌顶
- xianbin.yang回复 方秀生 2020.12.16
  [face]monkey2:002.png[/face]

不正经的kimol君 2020.11.19
忍不住就是一个赞，写得很棒，欢迎回赞哦~
- xianbin.yang回复New、Px 2020.11.21
  没有呢😄，谢谢鼓励，有问题一起交流
- New、Px回复xianbin.yang 2020.11.21
  楼主写的很好有技术群吗可以一起交流
- xianbin.yang回复不正经的kimol君 2020.11.19
  谢谢