这可能是学习 Spark Delta Lake 最全的资料

Delta Lake 为 Apache Spark 提供 ACID 事务,确保数据湖的可靠性。本文汇总了 Delta Lake 的 PPT、视频、技术文章和源码解析资源,包括 Delta Lake 的诞生背景、功能、实现原理,以及如何简化和扩展数据工程管道。同时,提供了 Delta Lake 的开源项目链接和未来规划,帮助读者全面掌握 Delta Lake。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。

为了更好的学习 Delta Lake ,本文收集了互联网上各种关于 Apache Spark Delta Lake 的资料,供大家学习交流,包括 PPT、视频、源码解析、技术文章等;另外,本文也会持续不断更新。

640?wx_fmt=png如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

PPT & 视频

目前关于 Delta Lake 的视频和 PPT 基本上都来自 Databricks 的大神们在各种场合分享的,本文对这些分享的资料进行了收集,具体如下:

Delta Lake - Open Source Reliability for Data Lakes

本分享来自 Michael Armbrust,负责 Delta Lake 的首席工程师,也是 Spark SQL 和 Structured Streaming 的核心开发者。这篇 PPT 介绍的比较详细,涉及到 Delta Lake 项目诞生背景、核心功能以及实现原理等。

配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_1 获取。

640?wx_fmt=jpeg

Making Apache Spark™ Better with Delta Lake

也是 Michael Armbrust 分享的。主题主要包括以下内容:

  • Apache Spark 在大数据处理中的作用;

  • 使用数据湖作为数据架构的重要组成部分;

  • 数据湖可靠性挑战;

  • Delta Lake 如何为 Spark 提供可靠的数据

  • Delta Lake 具体改进

  • 采用 Delta Lake 为您的数据湖提供动力

配套视频 & PPT 下载 :关注  开发爱好者社区(bigdata_ai)  微信公众号,并回复  2596_2  获取。

Getting Data Ready for Data Science

分享者 Prakash Chockalingam,他是 Databricks 的产品经理。本 PPT 主要内容为:

  • 数据科学生命周期

  • 数据工程对数据科学的重要性

  • 现代数据工程的关键原则

  • Delta Lake 如何帮助为分析提供可靠的数据

  • 采用 Delta Lake 为您的数据湖提供动力的便利性

  • 如何在您的数据基础架构中加入 Delta Lake 以启用数据科学

配套视频下载:关注  开发爱好者社区(bigdata_ai) 微信公众号,并回复  2596_3 获取。

Simplify and Scale Data Engineering Pipelines with Delta Lake

分享者 Joe Widen(Databricks 的高级解决方案架构师) 以及 Denny Lee(Databricks 的开发人员、倡导者)
配套视频 & PPT 下载:关注  开发爱好者社区(bigdata_ai) 微信公众号,并回复  2596_4 获取。

Next-generation scalable data lakes

分享者 Prakash Chockalingam,他是 Databricks 的产品经理。

配套 PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_5 获取。

技术文章 & 源码解析

  • Apache Spark Delta Lake 删除使用及实现原理代码解析(马上发布)

  • Apache Spark Delta Lake 更新使用及实现原理代码解析(马上发布)

  • Apache Spark Delta Lake 写数据使用及实现原理代码解析(马上发布)

  • Apache Spark Delta Lake 事务日志实现源码分析:https://www.iteblog.com/archives/2591.html

  • 深入理解 Apache Spark Delta Lake 的事务日志(中文)

  • Diving Into Delta Lake: Unpacking The Transaction Log(英文):

    https://databricks.com/blog/2019/08/21/diving-into-delta-lake-unpacking-the-transaction-log.html

  • Apache Spark 社区期待的 Delta Lake 开源了

  • Announcing the Delta Lake 0.3.0 Release:

    https://databricks.com/blog/2019/08/02/announcing-delta-lake-0-3-0-release.html

  • Productionizing Machine Learning with Delta Lake:

    https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html

  • Migrating Transactional Data to a Delta Lake using AWS DMS:

    https://databricks.com/blog/2019/07/15/migrating-transactional-data-to-a-delta-lake-using-aws-dms.html

  • Accurately Building Genomic Cohorts at Scale with Delta Lake and Spark SQL:

    https://databricks.com/blog/2019/06/19/accurately-building-genomic-cohorts-at-scale-with-delta-lake-and-spark-sql.html

  • Efficient Upserts into Data Lakes with Databricks Delta:

    https://databricks.com/blog/2019/03/19/efficient-upserts-into-data-lakes-databricks-delta.html

  • Introducing Delta Time Travel for Large Scale Data Lakes:

    https://databricks.com/blog/2019/02/04/introducing-delta-time-travel-for-large-scale-data-lakes.html

  • Processing Petabytes of Data in Seconds with Databricks Delta:

    https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html

帮助文档

  • 数砖 Delta Lake 产品文档:

    https://docs.databricks.com/delta/quick-start.html

  • Delta Lake 开源项目文档:https://delta.io/

项目地址

Delta Lake: https://github.com/delta-io/delta

未来规划

总体来说,未来版本将支持 Python & SQL API。

  • 0.4.0 规划:https://github.com/delta-io/delta/milestone/4

  • 长期规划:https://github.com/delta-io/delta/milestone/3

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值