
大数据Hive
文章平均质量分 54
Apache Hive 相关的知识
一二三的小仓库
每天进步一点点
展开
-
【Hive】 case when 语句如果 不写else 匹配不上的默认输为NULL
case when 语句如果 不写else 匹配不上的默认输为NULL例1:不写else匹配上的结果-- case when 语法进行匹配select case 1 when 1 then "yes" end as test结果:例2:不写eles匹配不上的结果-- 匹配0值,如果匹配不上则默认输出的是NULLselect case 0 when 1 then "yes" end as test结果:...原创 2022-05-10 15:39:29 · 5612 阅读 · 0 评论 -
数据仓库的设计
数据仓库设计分层规划ODS(原始数据层): 存放未经过处理的原始数据,结构上与源系统保持一致,是数据仓库的数据准备区DWD(明细数据层):基于维度建模理论进行构建,存放维度模型中的事实表,保存各业务过程最小粒度的操作记录DWS(汇总数据层):基于上层的指标需求,以分析的主题对象作为建模驱动,构建公共统计粒度的汇总表ADS(数据应用层):存放各项统计指标结果DIM(公共维度层):基于维度建模理论进行构建,存放维度模型中的维度表,保存一致性维度信息数据仓库构建流程数据调研1)业务调研主原创 2022-05-02 09:49:31 · 4830 阅读 · 0 评论 -
数据仓库相关理论(数据建模相关概念&维度建模理论&事实表&维度表)
业务过程:可以概括为一个个不可拆分的行为事件,例如电商交易中的下单,取消订单,付款,退单等,都是业务过程。1-数仓建模方法论ER模型实体关系模型数据库规范化(三范式):减少数据冗余,增强数据的一致性这种建模方法的出发点是整合数据,其目的是将整个企业的数据进行组合和合并。并进行规范处理,减少数据冗余性,保证数据的一致性。这种模型并不适合直接用于分析统计。维度模型维度模型将复杂的业务通过事实和维度两个概念进行呈现事实通常对应的是业务过程,而维度通常对应的是业务过程原创 2022-05-01 09:07:21 · 663 阅读 · 0 评论 -
Hive的NULL值求和与求平均
Hive的NULL值求和求平均sum(列1) : 这一列直接求和的时候遇到NULL值是会忽略不计的avg(列1) : 直接求平均值的时候遇到NULL值也是忽略不计,其他有值的正常计算列1+列2:如果两列里有其中一列为NULL的话,那么结果就是为null的count(列1):如果列1里边有NULL的话是不进行计算的count(*) :在进行统计计数的时候,所有的列都进行计算,包括NULL也算1-函数对NULL值的求和求平均首先来看这段代码with temp as (select null原创 2022-04-21 16:20:39 · 5349 阅读 · 0 评论 -
原子指标,派生指标,衍生指标概念
指标体系相关概念1. 原子指标原子指标指的是基于业务过程的度量值,顾名思义是不可以在进行拆分的指标核心功能:对指标的聚合逻辑进行了定义三要素:业务过程度量值聚合逻辑2. 派生指标派生指标是基于原子指标的 关系为派生指标 = 原子指标 + 统计周期 + 业务+ 统计粒度举例具体解释:派生指标:最近一周更省份手机品类订单的总额原子指标:订单总额 (定义业务过程、度量值聚合逻辑)统计周期:最近一周(限定统计的范围 是一个特殊的业务限定)业务限定:品类为手机(限定统计范围,相当于原创 2022-04-03 13:43:14 · 23521 阅读 · 0 评论 -
Hive的四个排序 by 总结
Hive的四个排序 by 总结Order by (全局排序) 全局排序 全局只有一个ReducerSort by (分区内排序) 分区内排序Distrbute By(分区间排序) 分区间排序 类似MR中Partition,进行分区,结合sort by使用。Cluseter 当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluster by除了具有Distribute by的功能外还兼具Sort by的功能。但是排序只能原创 2022-03-29 16:54:42 · 2323 阅读 · 0 评论 -
Hive查看表大小(所占的磁盘空间大小)
查看该hive表的总容量大小 单位为G[root@hadoop225 ~]$ hadoop fs -du /user/hive/warehouse/src.db/user/user_account|awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }'原创 2022-03-25 15:11:33 · 21026 阅读 · 0 评论 -
Hive中内部表和外部表之间的相互转换
区别:内部表--如果创建的表为内部表,在进行删除表的时候,元数据(mysql中的)和真实的数据(HDFS中存储的)都会被删除 外部表-- 在Hive中删除表的时候,只会把自己当前Mysql中所存的元数据删除掉,而真实的数据依然存在HDFS中,不会影响;转换:----外部表转换成内部表alter table 外部表 set tblproperties ('EXTERNAL'='False');----内部表转换成外部表alter table 内部表 ...原创 2021-08-21 19:38:13 · 4080 阅读 · 1 评论