
hive
文章平均质量分 70
歆歆歆歆歆
这个作者很懒,什么都没留下…
展开
-
flink1.14.4+iceberg0.14+hive2.3.9湖仓一体
iceberg实时数据,湖仓一体之路原创 2022-09-17 10:51:30 · 897 阅读 · 0 评论 -
hive自定义UDAF函数 O(n)
hive自定义UDAF函数文章目录hive自定义UDAF函数1.1需求1.2 分析1.3测试数据1.4代码实现1.5 打jar包1.6 上传服务器1.8 使用udaf函数1.9 结果展示2.0 相关注解1.1需求根据产品净值得到某个时间区间内的净值最大回撤,即max((Di-Dj)/Di), Di>=Dj; i,j为日期, Di、Dj 为净值 且 j>=i。以9月1号-9月5号为例,得到max[(9.1-9.1)/9.1,(9.1-9.2)/9.1,(9.2-9.2)/9.1 …(9.4原创 2021-09-18 17:19:51 · 393 阅读 · 0 评论 -
hive 优化
hive 优化(干货)hive优化一般分为底层优化和sql优化底层优化hive 默认引擎为 MR ,涉及优化一般也为MR的优化,一般分为以下部分。数据倾斜 set hive.groupby.skewindata=true;小文件合并是否合并Map输出文件:hive.merge.mapfiles=true(默认)是否合并Reduce 端输出文件:hive.merge.mapredfiles=false(默认)合并文件的大小:hive.merge.size.per.task=256100原创 2021-07-19 16:26:46 · 395 阅读 · 0 评论 -
数据集市-金融
数据集市-金融数据源上游系统数据载入上游系统数据质量集市建立明确接口指标单元测试联调测试上线数据验证数据源数据源可以为任一业务系统数据,亦可以为行为数据,在这以资产负债系统为例。上游系统数据载入一般银行资产负债系统会有多家上游系统,用于本系统的报表报送,本系统产品跑批及为下游系统供数:明确上游数据规则 ,如增全量,文件到达时间,数据文件类型,数据逻辑是否满足直取规则,若需二次加工如何处理;明确数据进入方式,明确本集市的数据是否由ods直取,明确是否需要第三方传输工具;数据由ods直取,配置调原创 2021-07-15 17:12:38 · 508 阅读 · 0 评论