
hudi
文章平均质量分 96
Apahe Hudi是Uber主导开发的开源数据湖框架,为了解决大数据生态系统中需要插入更新及增量消费原语的摄取管道和ETL管道的低效问题,该项目在2016年开始开发,并于2017年开源,2019年1月进入 Apach 孵化器,且2020年6月称为Apache 顶级项目。
赵广陆
优快云认证博客专家、优快云的Java领域优质创作者、全网30w+粉丝、超300w访问量、专注于大学生项目实战开发、讲解和答疑辅导、以及产品测评宣传、工具推广等合作。同时招收学生代理、校园代理,对于专业性数据证明一切!
展开
-
Hudi数据湖技术之数据中心案例实战
目录1 案例架构2 业务数据2.1 客户信息表2.2 客户意向表2.3 客户线索表2.4 线索申诉表2.5 客户访问咨询记录表3 Flink CDC 实时数据采集3.1 开启MySQL binlog3.2 环境准备3.3 实时采集数据3.3.1 客户信息表3.3.2 客户意向表3.3.3 客户线索表3.3.4 客户申诉表3.3.5 客户访问咨询记录表4 Presto 即席分析4.1 Presto 是什么4.2 Presto 安装部署4.3 Hive 创建表原创 2023-04-29 17:15:34 · 1831 阅读 · 0 评论 -
Hudi 数据湖技术之集成Flink
目录1 安装Flink2 快速入门2.1 集成Flink概述2.2 环境准备2.3 创建表2.4 插入数据2.5 查询数据2.6 更新数据3 Streaming query3.1 创建表3.2 查询数据3.3 插入数据4 Flink SQL Writer4.1 Flink SQL集成Kafka4.2 Flink SQL写入Hudi4.2.1 创建Maven Module4.2.2 消费Kafka数据4.2.3 保存数据至Hudi4.2.4 加载Hudi表数据原创 2023-04-25 22:05:40 · 1779 阅读 · 0 评论 -
Hudi数据湖技术之集成Spark
目录1 环境准备1.1 安装MySQL 5.7.311.2 安装Hive 2.11.3 安装Zookeeper 3.4.61.4 安装Kafka 2.4.12 滴滴运营分析2.1 需求说明2.2 环境准备2.2.1 工具类SparkUtils2.2.2 日期转换星期2.3 数据ETL保存2.3.1 开发步骤2.3.2 加载CSV数据2.3.3 数据ETL转换2.3.4 保存数据至Hudi2.3.5 Hudi 表存储结构2.4 指标查询分析2.4.1 开发步骤原创 2023-04-25 21:32:18 · 1528 阅读 · 0 评论 -
Hudi数据湖技术之核心概念
目录1 基本概念1.1 时间轴Timeline1.2 文件管理1.3 索引Index2 存储类型2.1 计算模型2.1.1 批式模型(Batch)2.1.2 流式模型(Stream)2.1.3 增量模型(Incremental)2.2 查询类型(Query Type)2.3 Copy On Write2.4 Merge On Read2.5 COW和MOR对比3 数据写操作流程3.1 UPSERT 写流程3.1.1 Copy On Write原创 2023-04-24 21:49:12 · 792 阅读 · 0 评论 -
Hudi数据湖技术之快速体验
目录1 编译 Hudi1.1 第一步、Maven 安装1.2 第二步、下载源码包1.3 第三步、添加Maven镜像1.4 第四步、执行编译命令1.5 第五步、Hudi CLI测试2 环境准备2.1 安装HDFS2.2 安装Spark 3.x3 spark-shell 使用3.1 启动spark-shell3.2 模拟数据3.3 插入数据3.4 查询数据3.5 表数据结构3.5.1 .hoodie文件3.5.2 数据文件3.6 Hudi 数据存储概述3.6.1 Metad原创 2023-04-24 21:39:24 · 815 阅读 · 0 评论 -
Hudi最流行数据湖框架介绍
目录1. 第一章Hudi 框架概述1.1 数据湖Data Lake1.1.1 仓库和湖泊1.1.2 什么是数据湖1.1.3 数据湖的优点1.1.4 Data Lake vs Data warehouse1.1.5 数据湖框架1.1.5.1 Delta Lake1.1.5.2 Apache Iceberg1.1.5.3 Apache Hudi1.1.6 湖仓一体(Data Lakehouse)1.1.6.1 背景概述1.1.6.2 概念定义1.1.6.3 架构原则原创 2023-04-23 23:17:00 · 5623 阅读 · 1 评论