
数据湖
文章平均质量分 85
数据湖相关知识记录
小枫@码
永远多做一步、多说一句正向的话、多做一件正向的事情
展开
-
Flink + Paimon数据 CDC 入湖最佳实践
Apache Paimon 最典型的场景是解决了 CDC (Change Data Capture)数据的入湖,看完这篇文章可以了解到:1、为什么 CDC 入Hive迁移到 Paimon?2、CDC 入 Paimon 怎么样做到成本最低?3、Paimon 对比 Hudi有什么样的优势?Paimon 从 CDC 入湖场景出发,希望提供给你 简单、低成本、低延时 的一键入湖。原创 2024-01-08 09:51:12 · 2226 阅读 · 0 评论 -
数据湖技术之Paimon
Flink社区希望能够将Flink的Streaming实时计算能力和Lakehouse新架构优势进一步结合,推出新一代Streaming Lakehouse技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Apache Paimon是一个流数据湖平台,具有高速数据摄取、变更日志跟踪和高效的实时分析的能力。原创 2024-01-05 09:30:57 · 2398 阅读 · 0 评论 -
数据湖概念以及数据湖产生的背景和价值
数据湖是一个集中式存储库,允许以任意规模存储所有结构化和非结构化数据。是构建在低成本分布式存储之上,提供更好事务和性能支持的统一数据存储系统。可以看出,由于采用了HDFS或公有云存储,所以数据湖在保存数据上,具有低成本大容量的优点,并且能够保存多种多样的数据,比如结构化、半结构化和非结构化数据;另外,由于表抽象层的存在,保证了ACID事务支持,同时提供了良好的扩展能力,可以面向不同的计算需求对接不同的计算引擎。原创 2024-01-03 09:44:00 · 648 阅读 · 0 评论 -
数据湖之Hudi源码编译
在centos系统上安装Maven,直接将Maven解压,然后配置系统环境变量即可,配置完Maven环境变量以后,执行mvn -version。编译完成以后,进入hudi-cli目录,运行hudi-cli脚本,如果可以运行,说明编译成功。编译Hudi源码步骤。原创 2023-02-10 14:39:51 · 526 阅读 · 0 评论 -
数据湖技术之iceberg
Iceberg使用一种类似于SQL表的高性能表格式,Iceberg格式表单表可以存储数十PB数据,适配Spark、Trino、Flink和Hive等计算引擎提供高性能的读写和元数据管理功能,Iceberg是一种数据湖解决方案。注意:Trino就是原来的PrestoSQL,2020年12月27日,PrestoSQL项目更名为Trino,Presto分成两个分支:PrestoDB、PrestoSQL。Iceberg支持实时/批量数据写入和读取,支持Spark/Flink计算引擎。原创 2023-01-08 14:48:21 · 1696 阅读 · 0 评论