打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
这可能是学习 Spark Delta Lake 最全的资料

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concurrency control),在写入数据期间提供一致性的读取,从而为构建在 HDFS 和云存储上的数据湖(data lakes)带来可靠性。Delta Lake 还提供内置数据版本控制,以便轻松回滚。

为了更好的学习 Delta Lake ,本文收集了互联网上各种关于 Apache Spark Delta Lake 的资料,供大家学习交流,包括 PPT、视频、源码解析、技术文章等;另外,本文也会持续不断更新。


如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop

    PPT & 视频

    目前关于 Delta Lake 的视频和 PPT 基本上都来自 Databricks 的大神们在各种场合分享的,本文对这些分享的资料进行了收集,具体如下:

    Delta Lake - Open Source Reliability for Data Lakes

    本分享来自 Michael Armbrust,负责 Delta Lake 的首席工程师,也是 Spark SQL 和 Structured Streaming 的核心开发者。这篇 PPT 介绍的比较详细,涉及到 Delta Lake 项目诞生背景、核心功能以及实现原理等。

    配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_1 获取。

    Making Apache Spark™ Better with Delta Lake

    也是 Michael Armbrust 分享的。主题主要包括以下内容:

    • Apache Spark 在大数据处理中的作用;

    • 使用数据湖作为数据架构的重要组成部分;

    • 数据湖可靠性挑战;

    • Delta Lake 如何为 Spark 提供可靠的数据

    • Delta Lake 具体改进

    • 采用 Delta Lake 为您的数据湖提供动力

    配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_2 获取。

    Getting Data Ready for Data Science

    分享者 Prakash Chockalingam,他是 Databricks 的产品经理。本 PPT 主要内容为:

    • 数据科学生命周期

    • 数据工程对数据科学的重要性

    • 现代数据工程的关键原则

    • Delta Lake 如何帮助为分析提供可靠的数据

    • 采用 Delta Lake 为您的数据湖提供动力的便利性

    • 如何在您的数据基础架构中加入 Delta Lake 以启用数据科学

    配套视频下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_3 获取。

    Simplify and Scale Data Engineering Pipelines with Delta Lake

    分享者 Joe Widen(Databricks 的高级解决方案架构师) 以及 Denny Lee(Databricks 的开发人员、倡导者)
    配套视频 & PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_4 获取。

    Next-generation scalable data lakes

    分享者 Prakash Chockalingam,他是 Databricks 的产品经理。

    配套 PPT 下载:关注 开发爱好者社区(bigdata_ai) 微信公众号,并回复 2596_5 获取。

    技术文章 & 源码解析

    • Apache Spark Delta Lake 删除使用及实现原理代码解析(马上发布)

    • Apache Spark Delta Lake 更新使用及实现原理代码解析(马上发布)

    • Apache Spark Delta Lake 写数据使用及实现原理代码解析(马上发布)

    • Apache Spark Delta Lake 事务日志实现源码分析:https://www.iteblog.com/archives/2591.html

    • 深入理解 Apache Spark Delta Lake 的事务日志(中文)

    • Diving Into Delta Lake: Unpacking The Transaction Log(英文):

      https://databricks.com/blog/2019/08/21/diving-into-delta-lake-unpacking-the-transaction-log.html

    • Apache Spark 社区期待的 Delta Lake 开源了

    • Announcing the Delta Lake 0.3.0 Release:

      https://databricks.com/blog/2019/08/02/announcing-delta-lake-0-3-0-release.html

    • Productionizing Machine Learning with Delta Lake:

      https://databricks.com/blog/2019/08/14/productionizing-machine-learning-with-delta-lake.html

    • Migrating Transactional Data to a Delta Lake using AWS DMS:

      https://databricks.com/blog/2019/07/15/migrating-transactional-data-to-a-delta-lake-using-aws-dms.html

    • Accurately Building Genomic Cohorts at Scale with Delta Lake and Spark SQL:

      https://databricks.com/blog/2019/06/19/accurately-building-genomic-cohorts-at-scale-with-delta-lake-and-spark-sql.html

    • Efficient Upserts into Data Lakes with Databricks Delta:

      https://databricks.com/blog/2019/03/19/efficient-upserts-into-data-lakes-databricks-delta.html

    • Introducing Delta Time Travel for Large Scale Data Lakes:

      https://databricks.com/blog/2019/02/04/introducing-delta-time-travel-for-large-scale-data-lakes.html

    • Processing Petabytes of Data in Seconds with Databricks Delta:

      https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html

    帮助文档

    • 数砖 Delta Lake 产品文档:

      https://docs.databricks.com/delta/quick-start.html

    • Delta Lake 开源项目文档:https://delta.io/

    项目地址

    Delta Lake: https://github.com/delta-io/delta

    未来规划

    总体来说,未来版本将支持 Python & SQL API。

    • 0.4.0 规划:https://github.com/delta-io/delta/milestone/4

    • 长期规划:https://github.com/delta-io/delta/milestone/3

    本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
    打开APP,阅读全文并永久保存 查看更多类似文章
    猜你喜欢
    类似文章
    【热】打开小程序,算一算2024你的财运
    Databricks中国启示录:一场蓄谋已久的技术与商业战|阿尔法讲故事
    深度分析Spark最新大杀器Delta Lake
    深度对比Delta、Iceberg和Hudi三大开源数据湖方案
    比拼生态和未来,
    深入理解 Spark Delta Lake 的诞生及其工作原理
    hadoop
    更多类似文章 >>
    生活服务
    热点新闻
    分享 收藏 导长图 关注 下载文章
    绑定账号成功
    后续可登录账号畅享VIP特权!
    如果VIP功能使用有故障,
    可点击这里联系客服!

    联系客服