
数仓
文章平均质量分 59
一代码动乾坤
目前主攻大数据领域的专家。熟悉DSP,DMP等常见在线广告体系、视频新媒体、下线实体数字化、企业级数据管理、数据治理、AI等领域有深耕。最终目标成为一名全栈代码扫地僧。望与大家共勉,一起将快乐代码做成终生事业!
展开
-
Sublime text3/4格式化json快捷键不生效。
1.打开首选项,快捷键设置(如果你是英文版的,注意关键词key,或者 用拍照翻译软件-有道)2.复制代码进去(可以自定义哦){"keys": ["command+ctrl+j"],"command":"pretty_json"}3.保存!!! 重启。。打开测试 command+ctrl+j ok...原创 2022-01-11 11:35:56 · 5522 阅读 · 2 评论 -
如何数仓维度模型详解-Kimball
数仓模型设计详细讲解来源:51cto 作者:大数据老哥前言今天给大家分享下数仓中的模型设计,一个好的数仓项目首先看一下它的架构以及他所用到的模型,它们使用的模型也都是非常巧妙的,好了,我们话不说到直接开始。一、维度建模基本概念维度模型是数据仓库领域大师Ralph Kimall所倡导,他的《数据仓库工具箱》,是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查...转载 2021-10-27 22:18:36 · 297 阅读 · 0 评论 -
CDH管理界面查看各组件的版本
CDH管理界面查看各框架的版本(hive为例)2016年05月27日 11:30:56levy_cui阅读数:19203版权声明:原创文章,欢迎转载但请备注来源及原文链接 https://blog.youkuaiyun.com/levy_cui/article/details/51513900安装好的CDH如果查看hive的版本呢,1、官网2、管理界面中官网查看一般看到的都...原创 2019-02-27 14:50:55 · 9454 阅读 · 1 评论 -
什么是ARPU与ARPPU ?
ARPU与ARPPU版权ARPU1ARPU的全称是Average Revenue Per User,也就是每用户平均收入。这个指标计算的是某时间段内平均每个活跃用户为应用创造的收入。如果按天来计算,ARPU就是ARPDAU。ARPU的计算中,所有的用户都被纳入了计算范围——无论是付费用户或非付费用户。ARPU是评估应用变现有效性的指标:ARPU越高,就代表用户在这段时间内为应用带来的变现收入就越多。ARPU可用于评估应用中的变动是否能有效提升变现收益:如果ARPU提升,证明应.转载 2020-08-24 14:47:32 · 11755 阅读 · 0 评论 -
hive数仓sql面试题2021
一、求单月访问次数和总访问次数1、数据说明数据字段说明用户名,月份,访问次数数据格式A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,12、...原创 2021-10-21 22:51:01 · 877 阅读 · 0 评论 -
hive数仓常见面试题2021
1|0面试题:hive 内部表和外部表的区别? hive 是如何实现分区的? Hive 有哪些方式保存元数据,各有哪些优缺点? hive中order by、distribute by、sort by和cluster by的区别和联系 hive 中的压缩格式 RCFile、 TextFile、 SequenceFile 各有什么区别? hive 如何优化?2|0hive 内部表和外部表的区别?未被external修饰的是内部表(managed table),被external修..原创 2021-10-22 10:00:00 · 690 阅读 · 0 评论 -
大数据:阿里数据仓库建模及管理体系OneData什么是阿里onedata
阿里onedata面对炸式增长的数据,如何建设高效的数据模型和体系,对这些数据进行有序和有结构地分类组织和存储,避免重复建设和数据不一致性,保证数据的规范性,一直是大数据系统建设不断追求的方向。 数据仓库模型实施过程: 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功; 其次,进行数据总体架构设计,主要根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度;原创 2021-10-20 00:10:45 · 2923 阅读 · 1 评论 -
数据仓库和数据集市的概念、区别与联系
数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据(一般公司会保存1年的历史数据)。• 数据仓库中的数据必须以一定时间段为单位进行统一更新。–不断增加新的数据内容–不断删去旧的数据内容–更新与时间有关的综合数据数据集市建立数据集市的原因:数据仓库是一种反映主题的全局性数据组织(一般企业都会建立有企业级的数据仓库)。但是,全局性数据仓库往往太大,在实际应用中将它们按.原创 2021-10-19 19:58:19 · 1227 阅读 · 0 评论 -
hdfs-bug:DataXceiver error processing WRITE_BLOCK operation
报错信息以及截图如下:calculation112.aggrx:50010:DataXceiver error processing WRITE_BLOCK operation src: /10.1.1.116:36274 dst: /10.1.1.112:50010java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io.IOUtils.readFully(IOUtils.java:203)原创 2021-10-19 19:14:24 · 2022 阅读 · 0 评论 -
[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChang
1.安装hive后无法启动,报错如下[ERROR] Terminal initialization failed; falling back to unsupported java.lang.IncompatibleClassChangeError: Found class jline原因是hadoop目录下存在老版本jline:/hadoop-2.6.5/share/hadoop/yarn/lib:-rw-r--r-- 1 wkz wkz 87325 Mar 10 18:10 jline-原创 2021-10-18 10:05:00 · 387 阅读 · 0 评论 -
Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多级层次的分析,上卷(roll up)或下钻(drill down)一类就很有分析价值。 我们有时...转载 2021-10-15 17:12:45 · 206 阅读 · 0 评论 -
什么是数据湖 Data Lake
什么是数据湖 Data Lake ?背景:随着近几年机器学习的兴起对数据的需求更加灵活,如果从数据仓库中提数会有一些问题。比如:数据都是结构化的(做算法的经常要理解数仓模型,甚至要深入到做了什么业务处理,很多处理都不是他们想要的);数据是经过处理的可能并不是算法想要的结果;算法同学与数仓开发同学沟通成本较大等。数据湖定义:是一个以原始格式(通常是对象块或文件)存储数据的系统或存储库。数据湖通常是所有企业数据的单一存储。用于报告、可视化、高级分析和机器学习等任务。数据湖可以包括来自关...原创 2021-10-14 09:54:19 · 636 阅读 · 0 评论 -
什么是拉链表
什么是拉链表在数据仓库的数据模型设计过程中,经常会遇到这样的需求:数据量比较大;表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态,比如,查看某一个用户在过去某一段时间内,更新过几次等等;变化的比例和频率不是很大,比如,总共有1000万的会员,每天新增和发生变化的有10万左右;如果对这边表每天都保留一份全量,那么每次全量中会保存很多不变的信息,对存储是极大的浪费;拉链历史转载 2021-08-22 22:30:59 · 141 阅读 · 0 评论 -
数据仓库数据库三范式,轻松理解
数据库三范式,轻松理解官方定义:第一范式(1NF):数据库表中的字段都是单一属性的,不可再分。我的理解:第一范式这个不用說了,只要是关系数据库都满足第一范式官方定义:第二范式(2NF):数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖我的理解:在第二范式中组合主键(AB)【注明:也叫做复合主键】里面的A或者B 与其他字段不能存在组合重复,为解决这个问题,通常的做法是咱们不用组合主键,添加一个ID,做为单一主键即可满足第二范式。如果不想添加ID,请满足组合主键(AB)里面的A或者B 与其他字原创 2021-08-20 01:30:52 · 259 阅读 · 0 评论 -
数据仓库一致性维度和一致性事实
在Kimball的维度建模的数据仓库中,关于多维体系结构(MD)有三个关键性概念:总线架构(Bus Architecture),一致性维度(Conformed Dimension)和一致性事实(Conformed Fact)。 总线架构 多维体系结构(总线架构) 数据仓库领域里,有一种构建数据仓库的架构,叫Multidimensional Architecture(MD),中文一般翻译为“多维体系结构”,也称为“总线架构”(Bus Architecture)。多维体系结构的创始人是数据仓库领域中最有实践转载 2021-08-18 23:54:07 · 1388 阅读 · 0 评论 -
hive3新特性
1,Hive 3新特性一:不再支持Mr,取而用Tez查询引擎,且支持两种查询模式:Container和LLAP2,Hive 3新特性二:Hive CLI不再支持(被beeline取代)3,Hive 3新特性三:SQL Standard Authorization不再支持,且默认建的表就已经是ACID表。4,Hive 3新特性四:支持 “批查询”(TEZ)或者 “交互式查询”(LLAP)。Hive 3其他特性:1、物化视图重写;2、自动查...原创 2020-09-28 09:40:40 · 1908 阅读 · 0 评论 -
ClickHouse中文官方文档
tp直达:https://clickhouse.yandex/docs/zh/原创 2019-11-26 13:38:19 · 8334 阅读 · 0 评论 -
美团数仓模型图
1.美团数仓模型图原创 2020-08-28 14:32:58 · 921 阅读 · 0 评论 -
clickhouse的sql执行计划
Clickhouse目前(20.6版本之前)没有直接提供explain查询,但是可以借助于后台的服务日志(设置为debug或者trace即可),能变相的实现该功能。clickhouse-client -h localhost --send_logs_level=trace <<<"SQL语句" >/dev/null这里我们使用clickhouse官方提供的hits_v1表来说明。hits表为clickhouse官方提供的数据集,表的定义如下: Clic.转载 2020-08-24 09:16:02 · 1257 阅读 · 0 评论 -
什么是原子指标,衍生(派生)指标
理解:原子指标:不加任何修饰词的指标就是原子指标,也叫度量(一般是表中,聚合字段,订单量,用户量,pv,uv等),派生指标:而在原子指标上进行加减乘除或者修饰词的限定等等都是派生(衍生)指标公式:衍生/派生指标=原子指标+时间周期+修饰词例如:网站近一周的访问量,近一周中国的访问量,近一个月的中国新增用户数等如:新增/访问用户=新增比例 =》派生(衍生)指标...原创 2020-08-20 10:14:53 · 17249 阅读 · 0 评论 -
星型模型和雪花型模型区别
星型模型和雪花型模型区别一、概述在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,如在地域维度表中,存在国家 A省 B 的城市 C 以及国家 A 省 B ..转载 2020-08-13 18:56:00 · 509 阅读 · 0 评论 -
sql,hive,Oracle取相同ID,最新一条
Oracle相同ID有多条记录,取时间最近的一条原创 社会主义程序员 最后发布于2016-11-28 11:03:02 阅读数 16316 收藏展开 select * from (select t.*, row_number() over(partition by t.strcaseid order by...原创 2020-03-24 14:07:23 · 1083 阅读 · 0 评论 -
数仓3NF模型
3NF的基本解释(1)1NF-无重复的列 数据库表的每一列都是不可分割的基本数据项,同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。在第一范式(1NF)中表的每一行只包含一个实例的信息。简而言之,第一范式就是无重复的列。 说明:在任何一个关系数据...转载 2020-03-16 13:36:26 · 461 阅读 · 0 评论