Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。
为了更好的学习 Delta Lake ,本文收集了互联网上各种关于 Apache Spark Delta Lake 的资料,供大家学习交流,包括 PPT、视频、源码解析、技术文章等;另外,本文也会持续不断更新。
目前关于 Delta Lake 的视频和 PPT 基本上都来自 Databricks 的大神们在各种场合分享的,本文对这些分享的资料进行了收集,具体如下:
本分享来自 Michael Armbrust,负责 Delta Lake 的首席工程师,也是 Spark SQL 和 Structured Streaming 的核心开发者。这篇 PPT 介绍的比较详细,涉及到 Delta Lake 项目诞生背景、核心功能以及实现原理等。
配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_1 获取。
也是 Michael Armbrust 分享的。主题主要包括以下内容:
Apache Spark 在大数据处理中的作用;
使用数据湖作为数据架构的重要组成部分;
数据湖可靠性挑战;
Delta Lake 如何为 Spark 提供可靠的数据
Delta Lake 具体改进
采用 Delta Lake 为您的数据湖提供动力
分享者 Prakash Chockalingam,他是 Databricks 的产品经理。本 PPT 主要内容为:
数据科学生命周期
数据工程对数据科学的重要性
现代数据工程的关键原则
Delta Lake 如何帮助为分析提供可靠的数据
采用 Delta Lake 为您的数据湖提供动力的便利性
如何在您的数据基础架构中加入 Delta Lake 以启用数据科学
分享者 Prakash Chockalingam,他是 Databricks 的产品经理。
配套 PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_5 获取。
Apache Spark Delta Lake 删除使用及实现原理代码解析(马上发布)
Apache Spark Delta Lake 更新使用及实现原理代码解析(马上发布)
Apache Spark Delta Lake 写数据使用及实现原理代码解析(马上发布)
Apache Spark Delta Lake 事务日志实现源码分析:https://www.iteblog.com/archives/2591.html
Diving Into Delta Lake: Unpacking The Transaction Log(英文):
https://databricks.com/blog/2019/08/21/diving-into-delta-lake-unpacking-the-transaction-log.html
Announcing the Delta Lake 0.3.0 Release:
https://databricks.com/blog/2019/08/02/announcing-delta-lake-0-3-0-release.html
Productionizing Machine Learning with Delta Lake:
https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html
Migrating Transactional Data to a Delta Lake using AWS DMS:
https://databricks.com/blog/2019/07/15/migrating-transactional-data-to-a-delta-lake-using-aws-dms.html
Accurately Building Genomic Cohorts at Scale with Delta Lake and Spark SQL:
https://databricks.com/blog/2019/06/19/accurately-building-genomic-cohorts-at-scale-with-delta-lake-and-spark-sql.html
Efficient Upserts into Data Lakes with Databricks Delta:
https://databricks.com/blog/2019/03/19/efficient-upserts-into-data-lakes-databricks-delta.html
Introducing Delta Time Travel for Large Scale Data Lakes:
https://databricks.com/blog/2019/02/04/introducing-delta-time-travel-for-large-scale-data-lakes.html
Processing Petabytes of Data in Seconds with Databricks Delta:
https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html
数砖 Delta Lake 产品文档:
https://docs.databricks.com/delta/quick-start.html
Delta Lake 开源项目文档:https://delta.io/
Delta Lake: https://github.com/delta-io/delta
总体来说,未来版本将支持 Python & SQL API。
0.4.0 规划:https://github.com/delta-io/delta/milestone/4
长期规划:https://github.com/delta-io/delta/milestone/3
联系客服