
数仓
zahuali
这个作者很懒,什么都没留下…
展开
-
保障数仓数据质量
小收藏:原创 2022-06-09 19:30:05 · 152 阅读 · 0 评论 -
hive获取数据中位数函数
当数据为小数时percentile_approx(字段名,0.5)当数据为整数时percentile(字段名,0.5)原创 2021-05-20 17:13:56 · 3435 阅读 · 0 评论 -
hive 内外部表加载hdfs数据位置情况
hive 表加载hdfs数据情况1:创建内部表create table if not exists tmp.testa (merchant_id string) stored as parquet;加载前hdfs数据导入数据LOAD DATA INPATH ‘/hive_log/basis_report_data/2021-02-01’ INTO TABLE tmp.testa总结:创建内部表 load 数据 hdfs数据会进行迁移 迁移位置 到了 hive表目录/user/hi原创 2021-02-23 11:37:26 · 941 阅读 · 0 评论 -
hive 创建日期的udf函数(获取昨天今天明天)
创建udf函数的全流程pom文件<name>g6-hadoop</name> <properties> <maven.compiler.source>1.7</maven.compiler.source> <maven.compiler.target>1.7</maven.compiler.target> <project.build.sourceEncodi原创 2020-05-15 15:49:08 · 434 阅读 · 0 评论 -
数仓架构
转自:http://blog.youkuaiyun.com/zyj8170/article/details/52920021数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包...转载 2019-05-28 16:21:47 · 2115 阅读 · 0 评论 -
hive数据格式
1 textfile行式存储数据不进行压缩 网络开销比较大·2 sequencefile 二进制文件二进制文件,它将数据(key,value)的形式序列化到文件里·3 ORC file1. ORC是列式存储,有多种文件压缩方式,并且有着很高的压缩比。2. 文件是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅节省HDFS存储资源,查询任务的输入数据量减...原创 2019-07-08 17:56:12 · 392 阅读 · 0 评论 -
hive优化
1hive整体架构的优化(1)根据日期进行分区进行动态分区 参数:hive.exec.dynamic.partition=ture(2)为了减少数据磁盘的存储及i/o的次数将数据进行压缩: 各种压缩进行对比textfile:160M(1)hive数据表的默认格式,存储方式:行存储 。(2) 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持splitSequenceFil...原创 2019-07-09 18:27:13 · 155 阅读 · 0 评论