离线数仓
JinVijay
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数仓建模主题--事件归因分析主题
含义:在完成了某预定任务目标的人群中,分析他们都是因为什么原因而完成的归因策略:首次触点归因:待归因事件中,最早发生的事,被认为是导致业务结果的唯一因素末次触点归因:待归因事件中,最近发生的事,被任务是导致业务结果的唯一因素线性归因:待归因事件中,每一个事件都被任务对业务结果产生了影响,影响力平均分摊时间衰减归因:越近发生的待归因事件,对业务结果的影响力位置归因:定义一个规则,比如最早,最晚事件占一部分比例,中间事件平摊影响力中间表设计:技术手段:归因权重计算逻辑复杂原创 2022-04-06 23:06:54 · 1313 阅读 · 0 评论 -
数仓建模主题--漏斗转化分析主题
漏斗分析的含义:分析师定义一个业务路径,路径上各个步骤的完成人数会逐渐递减,呈漏斗状漏斗分析的结果表设计:中间汇总表:主要作用:记录每个漏斗模型的每个步骤上完成的人数,以便给分析师快速查询报表计算逻辑:主要思想:利用正则表达式来判断用户的行为事件序列的模式是否匹配漏斗模型定义中的要求步骤:1.先将用户的事件序列,按照漏斗模型定义的条件进行过滤,留下满足条件的事件2.将同一个人的满足条件的事件ID收集到数据,按时间先后排序,拼接成字符串3.将拼接好的字符串,原创 2022-04-05 22:56:24 · 770 阅读 · 0 评论 -
app端-留存分析-周留存率报表开发
用户表user_id user_big_type user_mid_type fst_login_date100001 上海市 徐汇区 2016-01-02用户登录表user_id login_date100001 2016-03-03时间维度表date_id date_name date_year1 1900-01-01 1900....40000 2016-01-01 2.原创 2022-04-04 22:49:49 · 767 阅读 · 0 评论 -
app端-用户连续活跃区间记录表开发
-- 用户连续活跃区间记录表CREATE TABLE dws.mall_app_uac_range( guid bigint -- 用户id ,first_login_dt string -- 首访日期 ,range_start_dt string -- 区间起始日期 ,range_end_dt string -- 区间结束日期)partitioned by (dt string)stored as orctblp.原创 2022-04-03 23:02:27 · 690 阅读 · 0 评论 -
dws中间表模型设计: 页面受访明细宽表
目标表结构-- 目标表建表语句:create table dws.mall_app_pv_wide( url string ,session_id string ,guid bigint ,stay_long bigint ,ref_url string ,ts bigint ,is_new int ,fol原创 2022-04-02 22:44:16 · 2658 阅读 · 0 评论 -
离线数仓用户唯一标识(guid)的设计
含义:为每条日志数据都打上这条日志所属的用户的唯一标识目的:为后续的数据分析提供方便策略:第一种策略:使用设备id作为用户的唯一标识这种策略的弊端:①一个账号可能登陆了多个设备,会被标记为多个用户②一个设备登录了多个账号,会被标记为一个用户第二种策略:使用账号作为用户的唯一标识这种策略的弊端:①有些数据中根本没有账号②有些用户还没有注册账号,这部分数据会丢失所以使用第三种策略,动态绑定设备账号①维护一张设备账号绑定权重表...原创 2022-03-29 21:31:36 · 972 阅读 · 0 评论 -
离线数仓数据可靠性的问题
1.如何检测?使用脚本统计日志服务器上的采集的日志文件的行数与HDFS上的目标存储目录中的文件的行数,进行对比2.如何保证数据的不丢失?日志采集网络架构设计为两层第一级采用了tailDirSource,fileChannel,avroSink的搭配,第二级采用了avroSource,fileChannel,hdfsSink的搭配tailDirSource实现了flume的事务机制,并且可以记录偏移量fileChannel落地磁盘,是可靠的第一级的avroSin...原创 2022-03-28 21:42:50 · 1246 阅读 · 0 评论
分享