
数仓
zahuali
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
保障数仓数据质量
小收藏:原创 2022-06-09 19:30:05 · 160 阅读 · 0 评论 -
hive获取数据中位数函数
当数据为小数时 percentile_approx(字段名,0.5) 当数据为整数时 percentile(字段名,0.5)原创 2021-05-20 17:13:56 · 3462 阅读 · 0 评论 -
hive 内外部表加载hdfs数据位置情况
hive 表加载hdfs数据 情况1: 创建内部表 create table if not exists tmp.testa (merchant_id string) stored as parquet; 加载前hdfs数据 导入数据 LOAD DATA INPATH ‘/hive_log/basis_report_data/2021-02-01’ INTO TABLE tmp.testa 总结:创建内部表 load 数据 hdfs数据会进行迁移 迁移位置 到了 hive表目录/user/hi原创 2021-02-23 11:37:26 · 968 阅读 · 0 评论 -
hive 创建日期的udf函数(获取昨天今天明天)
创建udf函数的全流程 pom文件 <name>g6-hadoop</name> <properties> <maven.compiler.source>1.7</maven.compiler.source> <maven.compiler.target>1.7</maven.compiler.target> <project.build.sourceEncodi原创 2020-05-15 15:49:08 · 442 阅读 · 0 评论 -
数仓架构
转自:http://blog.youkuaiyun.com/zyj8170/article/details/52920021 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包...转载 2019-05-28 16:21:47 · 2131 阅读 · 0 评论 -
hive数据格式
1 textfile 行式存储 数据不进行压缩 网络开销比较大 ·2 sequencefile 二进制文件 二进制文件,它将数据(key,value)的形式序列化到文件里 ·3 ORC file 1. ORC是列式存储,有多种文件压缩方式,并且有着很高的压缩比。 2. 文件是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅节省HDFS存储资源,查询任务的输入数据量减...原创 2019-07-08 17:56:12 · 402 阅读 · 0 评论 -
hive优化
1hive整体架构的优化 (1)根据日期进行分区 进行动态分区 参数:hive.exec.dynamic.partition=ture (2)为了减少数据磁盘的存储及i/o的次数 将数据进行压缩: 各种压缩进行对比 textfile:160M (1)hive数据表的默认格式,存储方式:行存储 。 (2) 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split SequenceFil...原创 2019-07-09 18:27:13 · 165 阅读 · 0 评论