
Delta Lake
breeze_lsw
打杂工程师
展开
-
不通过 Spark 获取 Delta Lake Snapshot
Delta Lake 进行数据删除或更新操作时实际上只是对删除数据文件进行了一个 remove 标记,在进行 vacuum 前并不会进行物理删除,因此一些例如在 web 上获取元数据或进行部分数据展示的操作如果直接从表路径下获取 parquet 文件信息,读到的可能是历史已经被标记删除的数据。原创 2020-04-22 11:49:04 · 613 阅读 · 0 评论 -
Delta Lake 分区表覆盖写入操作
Delta Lake当前版本(0.5)只支持API操作的,但是实现 Insert SQL 语法也不难,可以参考 Delta Lake 平台化实践(离线篇),需要注意的是 Delta Lake 中的分区表覆盖写入操作。原创 2020-03-26 00:18:07 · 1746 阅读 · 0 评论 -
Delta Presto Integration & Manifests 机制
Delta Lake 在 0.5 之前只支持通过 Spark 读取数据,在新版本中增加了其他处理引擎通过 manifest 文件访问 Delta Lake 的能力。下文以Presto 为例说明如何通过 manifest 文件访问数据,manifest 文件的生成及其一些限制。原创 2019-12-17 11:46:18 · 1634 阅读 · 0 评论 -
Delta Lake 平台化实践(离线篇)
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。要将 Delta Lake 与 spark2.4 sql 以及大数据平台打通还是有一些工作需要去做,下文是在该过程中的一些实践及思考。目录SQL 支持DMLQueryInsert平台化工作浏览 delta 数据元数据兼容碎...原创 2019-12-15 21:18:26 · 2973 阅读 · 1 评论 -
Delta 初探
Delta Lake 初探Delta Lake在说 Delta Lake 之前,不得不说下近几年火热的 Data Lake ,Data Lake 的主要思想是将企业中的所有数据进行统一管理。例如基于 Hadoop 的 Data Lake 方案可以非常低成本的存储所有类型的数据,但是显而易见的,它只支持批量插入,用户读取时无法获取当前更新的数据,多用户写还可能会发生异常,数据并不是非常可靠。...原创 2019-04-29 01:01:00 · 6265 阅读 · 1 评论