
数据湖
文章平均质量分 73
数据湖 介绍
只是甲
10年及以上金融信贷、通信行业数据库运维管理、数据仓库及大数据相关工作经验,持有Oracle OCP和Linux RHCE认证证书。
展开
-
Hudi系列26: Spark处理Flink CDC同步的实时数据
因为数据已经同步到了Hive,Spark SQL默认可以读取Hive表的数据,所以可以直接进行操作。原创 2023-05-24 09:43:03 · 582 阅读 · 0 评论 -
Hudi系列25: Flink SQL使用checkpoint恢复job异常
如果是整个yarn-session异常,也可以启动yarnsession的时候指定checkpoint。在网上看到的资源都是针对代码级别的,没有看到Flink SQL级别的。对于一些大表,最好还是先通过Spark进行初始化,然后在接增量。把yarn-session的资源由8G提升到16G问题解决。在Flink web界面将Flink SQL任务手工结束掉。Flink可以自己重试,这个还是比较不错,无需人工干预。等mysql启动成功之后,任务又可以继续衔接上。看来是我的checkpoint都没成功。原创 2023-05-23 09:47:17 · 1960 阅读 · 0 评论 -
Hudi系列24: COW表初始化大表
如果是生产环境,可以指定一个较高的并行度,我这个地方因为是测试环境,并行度指定为1。内存尽量多指定,不然会包 OOM的错误。原创 2023-05-23 09:38:47 · 215 阅读 · 0 评论 -
Hudi系列23:常见问题
索引 index 是判断数据重复的核心数据结构, index.state.ttl 设置了索引保存的时间, 默认 1.5 天,对于昌时间周期的更新, 比如更新一个月前的数据,需要将 index.state.ttl 调大(单位 天), 设置小于0代表永久保存。Merge On Read 默认开启了异步的compaction,策略是 5 个 commits 压缩一次, 当条件满足会触发压缩任务,另外,压缩本身因为耗费资源,所以不一定能跟上写入效率,可能有滞后。,我还以为是提示错误,后来想想也不至于,然后想到。原创 2023-05-22 18:33:35 · 1666 阅读 · 1 评论 -
Hudi系列22:离线Clusting
异步的 clustering 相对于 online 的 async clustering 资源隔离, 从未更加稳定。仍然保持开启,由写任务阶段性出发 clustering plan。为 false,关闭在线 clustering。推荐由写定时出发,写参数。原创 2023-05-19 09:32:03 · 658 阅读 · 0 评论 -
Hudi系列21:离线Compaction
hudi原创 2023-05-18 10:35:53 · 851 阅读 · 0 评论 -
Hudi系列20: Bucket索引
从 0.11 开始支持默认的flink 流式 写入使用 state 存储索引信息: primary key 到 fileID 的映射关系。当数据量比较大的时候, state的存储开销可能成为瓶颈, bucket 索引通过固定的 hash 策略, 将相同 key 的数据分配到同一个 fileGroup 中,避免了索引的存储和查询开销。原创 2023-05-17 09:38:56 · 807 阅读 · 0 评论 -
Hudi系列19:Hudi写入模式
Hudi写入模式原创 2023-02-17 11:21:58 · 1060 阅读 · 0 评论 -
Hudi系列18:Hudi全量接增量
Hudi全量接增量原创 2023-02-15 11:14:02 · 881 阅读 · 0 评论 -
Hudi系列17:离线批量导入
Hudi离线批量写入原创 2023-02-13 15:06:06 · 1568 阅读 · 0 评论 -
Hudi系列16:Hudi核心参数
hudi常用参数原创 2023-02-07 15:41:46 · 1668 阅读 · 1 评论 -
Hudi系列15:Hudi元数据同步到Hive
Hudi元数据同步到Hive原创 2023-02-06 10:17:48 · 1932 阅读 · 1 评论 -
Hudi系列14:Hudi元数据持久化
Hudi元数据持久化原创 2023-02-03 16:59:31 · 762 阅读 · 0 评论 -
Hudi系列13:Hudi集成Hive
Hudi集成hive原创 2023-02-02 15:10:02 · 3828 阅读 · 1 评论 -
Hudi系列12:Flink 与 Hudi类型映射
Flink 与 Hudi 类型映射原创 2023-02-01 15:47:11 · 716 阅读 · 2 评论 -
Hudi系列11:Flink CDC 将MySQL的数据写入Hudi
Flink CDC 实时将MySQL数据写入到Hudi原创 2023-02-01 15:45:45 · 843 阅读 · 0 评论 -
Hudi系列10:Flink流式插入
Flink 流式插入原创 2023-01-31 09:30:46 · 819 阅读 · 0 评论 -
Hudi系列9:Flink SQL操作hudi表
Flink SQL操作Hudi表Flink Hudi集成原创 2023-01-31 09:21:46 · 1393 阅读 · 0 评论 -
Hudi系列8:Hudi集成Flink
Flink 集成 Hudi原创 2023-01-13 09:25:13 · 683 阅读 · 1 评论 -
Hudi系列7:使用SparkSQL操作Hudi
Spark SQL操作Hudi原创 2023-01-13 09:24:27 · 2152 阅读 · 0 评论 -
Hudi系列6:使用pyspark操作Hudi
pyspark 操作Hudi原创 2023-01-12 15:52:53 · 1797 阅读 · 1 评论 -
Hudi系列5:Hudi与Spark集成
Spark 集成 Hudi原创 2023-01-12 15:48:29 · 1436 阅读 · 0 评论 -
Hudi系列4:Hudi数据写操作流程
Hudi读写流程原创 2023-01-11 10:41:42 · 1610 阅读 · 0 评论 -
Hudi系列3:Hudi核心概念
Hudi核心概念原创 2023-01-11 10:15:20 · 1063 阅读 · 0 评论 -
Hudi系列2:Hudi安装
数据湖 hudi 编译安装原创 2023-01-10 15:16:49 · 1710 阅读 · 3 评论 -
Hudi系列1:Hudi介绍
数据湖 hudi原创 2023-01-10 15:12:41 · 1172 阅读 · 0 评论