随着数据湖使用规模的扩大,客户在使用过程中也遇到了数据湖带来的诸多挑战:过多的小文件会给 Hadoop HDFS 的 NameNode 可用性上带来严重的问题,同时也会在计算引擎侧带来大量的 IO 和查询速度的降低,同时数据湖ACID 特性和高频入湖也会导致数据湖元数据的膨胀,以及数据湖下表的生命周期管理等问题,这些都会影响湖仓在客户侧的落地,因此数据湖存储优化模块是湖仓架构下必不可少的模块,也是湖仓生产落地过程中关键的部分。
腾讯云TBDS大数据高级开发工程师李灿,拥有多年大数据数仓平台研发经验,目前负责TBDS数据湖治理模块的开发与优化。3月28日,他将为您分享「腾讯云TBDS在Iceberg数据湖上的治理实践」,深入解析数据湖存储优化的难点与解决方案,助力企业实现数据湖的高效管理与优化。
演讲亮点抢先看:
1. TBDS大数据平台架构解析
a. 揭秘腾讯云TBDS大数据平台的核心架构与设计理念。
2. Iceberg数据湖治理的难点剖析
a. 小文件过多、元数据膨胀、ACID特性冲突等问题的根源与影响。
3. TBDS在Iceberg湖治理上的实践与优化方案
a. 分享腾讯云TBDS如何通过存储优化、资源管理、任务调度等技术手段,解决数据湖治理中的核心问题。
4. 落地挑战与方案重点:
海量库表下的性能压力
如何通过优化存储与元数据管理,提升海量库表下的查询与计算性能?
高效资源管理
如何实现资源的高效分配与调度,避免资源浪费与冲突?
减少优化任务失败的影响
如何通过任务调度与冲突检测机制,降低优化任务失败对业务的影响?
5. 未来展望
a. 探讨数据湖治理技术的未来发展趋势与TBDS的研发方向。
听众收益:
掌握数据湖治理核心技术:了解Iceberg数据湖在生产实践中面临的挑战与解决方案。
学习腾讯云TBDS的最佳实践:获取数据湖治理的优化方案与落地经验。
洞察未来趋势:了解数据湖治理技术的未来发展方向,提前布局技术升级。
数据湖的难题,腾讯云TBDS为您破解!
与腾讯云一起,探索Iceberg数据湖治理的最佳实践,开启数据湖高效管理的新篇章!
立即报名,抢占席位,与技术专家共话数据湖治理的未来!
大模型正促使传统数据湖的使用范式发生翻天覆地的变化。当前数据湖的应用主要集中于报表生成、ETL 及交互式分析等传统 Data 领域应用,但在未来数据湖的范畴将逐步拓展,涵盖 AI Search、Agent 开发等 AI 应用范式,在接下来3年 Data+AI 一体化会成为数据湖关键的演进方向。
腾讯云大数据专家产品经理胡嘉琪将分享「数据湖迈向Data+AI一体化平台的演进之路」,带您深入探讨数据湖如何迈向Data+AI一体化平台,分享腾讯云在这一领域的最新思考与实践成果。
胡嘉琪,拥有10年大数据从业经验,目前负责腾讯云数据湖产品的设计与商业化。本议题将结合腾讯云大数据团队的实际经验,为您解析数据湖在LLM时代的变革与未来发展方向。
演讲亮点抢先看:
1. LLM时代数据平台的变革
大模型技术如何颠覆传统数据湖的使用范式?数据湖如何走向“AI驱动”?
2. 下一代数据湖平台的关键能力
探讨数据湖在AI时代需要具备的核心能力,包括实时性、多模态数据处理、AI模型支持等。
3. Data+AI构建数据湖应用新范式
如何通过Data+AI一体化,构建支持AI Search、Agent开发等全新应用范式?腾讯云的实践案例将为您提供答案。
4. 腾讯云Data+AI一体化平台架构
揭秘腾讯云在Data+AI一体化平台上的架构设计与技术突破,分享如何通过CPU+GPU混合调度、数据湖与Agent Framework打通等技术手段,实现高效的数据湖与AI Agent开发平台无缝集成,支持智能应用的快速开发与部署。
数据湖的未来已来,Data+AI一体化平台正在重塑数据技术的边界!
与腾讯云一起,探索数据湖的智能化演进之路,抢占技术前沿的先机!
另外,「数据湖·存储、计算与AI融合创新峰会」特邀请腾讯云大数据专家工程师周劲松,出品「数据湖计算革新」论坛,组织策划论坛内容,并邀请嘉宾。
在数据量爆发式增长的今天,计算引擎的性能直接决定了数据湖的实用价值。随着企业数据规模持续扩大,传统计算架构面临性能瓶颈和成本压力,新兴计算架构正在崛起。本论坛聚焦存算分离、查询优化、实时计算等关键技术突破,将从增量湖仓架构、查询优化技术、Flink 2.0创新、云原生分析等多个维度,探讨数据湖计算引擎的最新进展,美团、阿里云Flink、Doris、StarRocks、英特尔等企业参与分享。
本次论坛将于 3 月 28 日下午直播,欢迎观看。
「数据湖·存储、计算与AI融合创新峰会」整体议程如下,欢迎收看: