
数据仓库
1024276449
这个作者很懒,什么都没留下…
展开
-
HQL-留存率计算
留存率既:留存率=登录用户数/新增用户总数 * 100%登录用户数:在统计的时间登陆过的用户新增用户总数:新创建的用户(第一次登录的用户)思路:因为我们现实生产中求的不只是次日留存,还有7日留存或30日留存1.首先我们统计出每个用户最早登录时间2.统计出每日新增人数3.在统计出每日活跃用户4.将两个查询结果进行join形成新表 id atime(每日登录) btime(最早登录)5.通过TIMESTAMPDIFF(DAY,atime,btime)函数,求出两个日期之间相差的天数SELE原创 2021-05-15 22:24:13 · 422 阅读 · 0 评论 -
Power BI中将度量作为维度进行建模的优缺点
使用“度量维度”方法构建事实表有一些优点,例如:你可以在报告中使用切片器来选择显示在视觉对象中的度量;你可以轻松添加新度量,而不必在事实表中添加新列;你可以使用行级安全性来控制用户可以访问哪些度量;但尽管如此,任何时候只要偏离常规维度建模,都可能会在以后遇到问题,这个方法也不例外。怎么会这么说呢,接下来就让我们一起看看将度量作为维度进行建模的一些缺点。格式设置压缩计算复杂度计算性能...原创 2021-04-28 22:06:01 · 368 阅读 · 0 评论 -
OLTP和OLAP的区别和受众
Mysql关系模型:关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。Hive 维度模型:维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以HIVE把相关各种表整理成两种:事实表和维度表两种。所有维度表围绕着事实表进行解释。对比属性 OLTP OLAP读特性 每次查询只返回少量记录 对大量记录进行汇总写特性 随机、低延时写入用户的输入 批量导入原创 2021-04-13 21:43:10 · 137 阅读 · 0 评论 -
数据仓库的特点
1. 面向主题面向主题特性是数据仓库和操作型数据库的根本区别。操作型数据库是为了支撑各种业务而建立,而分析型数据库则是为了对从各种繁杂业务中抽象出来的分析主题(如用户、成本、商品等)进行分析而建立;2. 集成性集成性是指数据仓库会将不同源数据库中的数据汇总到一起;3. 企业范围数据仓库内的数据是面向公司全局的。比如某个主题域为成本,则全公司和成本有关的信息都会被汇集进来;4. 历史性较之操作型数据库,数据仓库的时间跨度通常比较长。前者通常保存几个月,后者可能几年甚至几十年;5. 时变性时变原创 2021-04-10 10:54:23 · 507 阅读 · 0 评论 -
数据仓库分层原理
ODS 原始数据层对数据不做任何变化,用来备份数据对数据进行压缩(100G-10G)对数据进行分区存储,放置后续的全表扫描DWD 数据明细层对ODS层数据进行清洗(脏数据),对数据脱敏,维度退化DWS 服务数据层对DWD层的数据为基础,累计汇总DWT 数据主题层对DWS层的数据进行累计统计ADS 数据应用层为各种统计报表提供数据为什么要分层1)复杂问题简单化2)隔离原始数据3)减少重复开发...原创 2021-04-07 23:15:31 · 240 阅读 · 0 评论