LakeFS 是一种开源工具,可将你的对象存储转换为类似 Git 的存储库;它使你能够以管理代码的方式管理数据湖。
使用 LakeFS,你可以构建可重复的、atomic 和版本化的数据湖操作 - 从复杂的 ETL 作业到数据科学和分析。
LakeFS 支持 AWS S3、Azure Blob Storage 和 Google Cloud Storage 作为其底层存储服务。它与 S3 的 API 兼容,并与所有现代数据框架(如 Spark、Hive、AWS Athena、Presto 等)无缝协作。
特性:
- 百万亿规模的版本控制
- 类似于 Git 的操作:branch、commit、merge、revert
- Zero copy branching 用于 frictionless 实验
-
数据和代码的完全可重复性
-
用于 data CI/CD 的 Pre-commit/merge hooks
-
即时恢复对数据的修改
评论