CDP数据湖
文章平均质量分 83
本专栏主要介绍如何使用CDP的数据湖
罗仲虎
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深入解析 Cloudera 混合数据湖库的下一阶段
人工智能(AI)正蓄势待发,重塑几乎每个行业的运营方式。根据Cloudera的研究,超过三分之一(36%)的美国企业处于探索人工智能应用潜力的初期阶段。然而,即便AI的应用正在崛起,许多企业仍面临着挑战。无论是AI还是其他形式的分析,其质量都依赖于其所基于的数据。而问题的关键就在于此。许多组织难以访问和收集分散且孤立的数据,这些数据分布在不同的环境中,而这些数据又是驱动AI所必需的。这使得许多企业无法实现他们对业务洞察和价值的期望。翻译 2024-12-31 13:46:23 · 113 阅读 · 0 评论 -
Apache Hudi vs Delta Lake vs Apache Iceberg
(查询是否可以基于定义在列值上的函数进行数据跳过,除了字面上的列值之外?(我可以配置一个单一的标准文件大小,以在任何写入表时自动强制执行吗?(我可以避免将所有基础文件与所有传入的更新/删除记录进行合并吗?(我可以在不重写数据的情况下将数据就地升级到系统中吗?(我可以保存数据的快照,然后将表恢复到该状态吗?我可以使用命令行界面(CLI)来管理我的表格吗?(我可以同时对表运行不同的写入器和表服务吗?(我可以在使用过程中持续更改表的分区结构吗?(我可以在写入时对数据进行提交前的转换吗?原创 2025-01-10 23:26:06 · 2293 阅读 · 0 评论 -
开放表格式与开放数据湖仓的视角分析
如今,围绕的讨论异常火热。这种架构将两种主流的数据存储技术——和相结合,承诺以更少的成本实现更多的功能。同时,由于客户对灵活性和开放性的需求,所有主要的数据仓库厂商都已经开始支持。在这一领域,和这三个项目成为了焦点,也成为厂商在这一技术方向上博弈的关键。这些项目为构建开放且可适应的基础架构铺平了道路,使企业能够根据自身的特定工作负载选择合适的计算引擎,从而避免被专有存储格式所限制。翻译 2025-01-01 12:13:30 · 227 阅读 · 0 评论 -
Hudi核心概念-表&查询类型
Hudi表类型定义了数据的存储方式以及写操作在表上的实现方式(即数据如何写入)。相应地,查询类型定义了底层数据如何暴露给查询(即数据如何读取)。表与查询图:表与查询Hudi 引入了以下表类型,这些类型现在已被广泛应用于整个行业,用于权衡不同的性能和需求。写时复制(CoW)表类型针对读密集型工作负载进行了优化。在此模式下,记录的更新或删除操作会触发文件组中新基文件的创建,而不会写入日志文件。这确保了每次查询只需读取基文件,从而提供高读取性能,并且无需动态合并日志文件。翻译 2025-01-03 13:23:43 · 473 阅读 · 0 评论 -
Hudi核心概念-文件存储布局
以下内容描述了 Hudi 表在存储中一般的文件组织结构。.hoodie。翻译 2025-01-03 09:15:37 · 388 阅读 · 0 评论 -
Hudi核心概念-时间线
表状态的变化(写入、表服务、模式更改等)被记录为 Hudi 时间线中的动作。Hudi 时间线是一个记录在不同时间点(瞬间)对表执行的所有操作的日志。它是 Hudi 架构的关键组成部分,作为表状态的真实来源。时间线上使用的所有瞬时时间都遵循 TrueTime 语义,并在涉及的各种进程中全局单调递增。有关更多详细信息,请参阅下面的 TrueTime 部分。翻译 2025-01-03 08:56:27 · 277 阅读 · 0 评论 -
CDP集成Hudi实战-编译部署
Hudi 1.0.0 是一个重要的里程碑版本,重点改进了数据格式、性能和并发写入支持,同时引入了更灵活的索引和文件格式管理,为用户带来了更高的可扩展性和易用性。本文是关于如何在CDP-7.3.1的环境下编译部署Hudi-1.0.0。原创 2025-01-02 13:10:10 · 1022 阅读 · 0 评论 -
CDP集成Hudi实战-spark shell
Hudi提供了多种写操作——包括批量和增量写操作——以将数据写入Hudi表,这些操作具有不同的语义和性能。当未配置记录键(请参见下面的键)时,将选择bulk_insert作为写操作,这与Spark的Parquet数据源的非默认行为相匹配。首次提交将自动初始化表,如果指定的基本路径中尚不存在该表。原创 2025-01-04 00:06:03 · 601 阅读 · 0 评论 -
CDP集成Hudi实战-Hive
〇]关于本文本文测试一下使用Hive和Hudi的集成。原创 2025-01-05 09:01:02 · 739 阅读 · 0 评论
分享