- 博客(31)
- 收藏
- 关注
原创 数仓 —— 数据仓库模型层级设计
数据 —— 数据模型层级设计各团队对数据模型都有不同的分层方式,比如腾讯团队:ODS(操作数据层),DWD(主题明细层),DWS(主题聚合层),ADS(应用数据层),DIM(维度数据层)字节跳动:ODS(操作数据层),DWD(主题明细层),DW(主题聚合层),DM(宽表层),ADS(应用层)阿里巴巴:ODS(操作数据层),DWD(主题明细层),DWS(主题聚合层),ADS(应用层)操作数据层(ODS):最接近数据源的一层,主要负责以下工作:数据清洗:过滤日志或者上游中的脏数据结构化:将数据中的
2021-10-19 20:23:50
1178
原创 数据分析——十大数据分析模型
( 一 )事件分析( 二 )漏斗分析( 三 )用户路径分析( 四 )留存分析( 五 )Session分析( 六 )热力分析( 七 )归因分析( 八 )间隔分析( 九 )分布分析( 十 )属性分析
2021-06-16 17:10:09
23940
原创 数据分析——埋点的三种类型及优缺点
常见的数据埋点方式有三种:代码埋点、全埋点、可视化埋点。( 一 )代码埋点代码埋点按照埋点上报的位置不同可以分为前端埋点和后端埋点,区别在于埋点逻辑是放在前端完成,还是后端完成。前端埋点,由客户端、前端页面直接记录用户的行为进行上报。如用户点击“加入购物车”按钮。后端埋点,是将用户与服务端的交互记录进行上报。可以记录没有发生在用户界面上的操作变化,如商品库存的变化。优点适合精细化分析的场景缺点需要完整的埋点流程,侵入业务代码,维护成本较高( 二 )全埋点全埋点,也叫无埋点、无码埋点、
2021-05-12 11:42:44
7530
原创 SQL——计算次日留存率
问题:计算用户是否是次留用户计算每日次日留存率原数据表:user_login_table表表字段:用户、登陆日期sql查询:计算用户是否是次留用户select t1.user_name,max(case when datediff(day,date(newdate),date(logindate)) = 1 then 1 else 0 end) as 是否次留用户from ( select user_name,min(logindate) newdate from user_
2021-05-12 10:53:42
16198
2
原创 数据分析——用户粘性指标 DAU/MAU
( 一 )定义DAU,即:Daily Active User,指日活跃用户数;MAU,即:Monthly Active User,指月活跃用户数。DAU/MAU就是体现用户粘性最频繁使用的指标。日活跃用户占月活跃用户的比例越高,表明用户对App的使用粘性越高。...
2021-04-30 14:48:28
12015
原创 数据分析——工作中遇到的“辛普森悖论”
( 一 )辛普森悖论定义辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。我们来看下百度百科的例子:表格中可以看出,商学院和法学院的女生录取率均低于男生录取率,但是总计中女生录取率却高于男生录取率。我们通过下面两个实例再来看下这个统计学中的陷阱。( 二 )实例:日均浏览时长上升问题:某APP用户日均浏览时长
2021-04-01 16:45:07
1591
转载 Hive——数据倾斜问题
( 一 )数据倾斜是什么由于某个字段数据值或者函数作用后的数据值分布不均匀,导致在reduce阶段,某个rudece节点的数据量太大,计算时间非常久;而其他reudce数据量少计算快,计算完需要等所有节点计算完,任务才能完成。( 二 )数据倾斜的表现看执行日志,rudece的进度一直在99%。( 三 )数据倾斜的优化数据倾斜一般出现在join部分和group by部分;join主要是左右表某个表的关联key分布不均匀或者某些key的量特别大;对于join时候数据倾斜,我一般会尝试以下几种优化方法
2021-03-18 14:20:52
479
原创 数据分析——AB实验
AB测试什么是AB测试AB测试的统计学原理统计功效是什么AB实验要开多久,样本量要多少如何优雅的分析AB实验的结果AB实验常见注意要点1. 什么是AB测试AB实验就是为了验证一个新的产品交互设计、产品功能或者策略、算法的效果,在同一时间段,给多组用户(一般叫对照组和实验组,用户分组方法统计上随机,多组用户统计角度无差别)分别展示优化前和优化后的产品交互设计,并通过数据分析,判断优化前后的方案在一个或多个评估指标上是否符合预期的一种实验方法。通俗讲就是我们在线上可以切出一部分用户(降低风
2021-03-17 16:43:21
26202
原创 数据分析——如何构建数据指标体系
数据指标体系1. 什么是数据指标体系通常我们讲述的指标是对当前业务有参考价值的统计数据,换句话说,不是所有的数据都叫指标。指标的核心意义是它使得业务目标可描述、可度量、可拆解。常用的指标有PV、UV等。指标体系是从不同维度梳理业务,并将零散单点的具有相互联系的指标,系统化地组织起来。其中,维度分为定性维度和定量维度,定性维度主要是文字描述类,例如姓名、地名等;定量维度主要是数值描述类,如工资、年龄等。...
2021-02-25 18:50:08
4445
原创 算法模型——决策树
决策树决策树属于监督学习,是一种预测模型。1. 概念**决策树(Decision Tree)**是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。2. 步骤1....
2021-02-19 18:15:01
4485
转载 算法模型——逻辑回归
逻辑回归逻辑回归(Logistic Regression)主要解决二分类问题,用来表示某件事情发生的可能性。比如:一封邮件是垃圾邮件的肯能性(是、不是)你购买一件商品的可能性(买、不买)广告被点击的可能性(点、不点)1. 逻辑回归与线性回归线性回归和逻辑回归是 2 种经典的算法。经常被拿来做比较,下面整理了一些两者的区别:2. 百科定义百度百科查看详情逻辑回归是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预
2020-12-22 23:02:09
724
原创 算法模型——K-Means聚类
K-Means 聚类K-Means聚类一般于根据群体的某些标签值或某些属性,对群体进行分组。1. 聚类与分类聚类与分类最大的区别就是,聚类就是在未知分类规则的情况下对样本集进行分群,分类就是在特征空间中用已知的规则对样本进行判别或者预测。分类:分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是
2020-12-22 18:10:37
1652
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人