软件简介

ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架,支持容错和弹性调度。

TensorFlow 具有故障可恢复的原生分布式计算功能,在某些进程挂掉的情况下,分布式计算作业将停止,但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。

ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复,在某些进程挂掉的情况下,该作业将继续运行。

容错的特性使得 ElasticDL 与基于优先级的 Kubernetes 抢占一起实现了弹性调度能力。当 Kubernetes 杀死某个作业的某些进程以为具有更高优先级的新作业释放资源时,当前作业不会停止,而是使用更少的资源继续运作。弹性调度可以显着提高集群的整体利用率。

ElasticDL 弹性调度的特点来自其 Kubernetes 原生设计,它不依赖于像 Kubeflow 这样的 Kubernetes 扩展来运行 TensorFlow 程序。ElasticDL 作业的主进程直接调用 Kubernetes API 来启动工作程序和参数服务器,它还会监视诸如 process/pod killing 之类的事件,并对此类事件做出反应以实现容错。

此外,ElasticDL 还可以与 SQLFlow 配合,更加易于使用。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
2019/09/16 15:24

ElasticDL: Kubernetes-native 弹性分布式深度学习系统

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系统,据我们所知,ElasticDL 是第一 个。项目负责人王益和我们分享了 ElasticDL 项目的设计意图和现状,尤其是 ElasticDL 与 TensorFlow 2.0 以及 Kubernetes 的技术关联。 分布式深度学习的技术思路 基于 TensorFlow 的分布式训练系统大致...

0
1
发表于AI & 大数据专区
2020/07/09 13:44

案例分享 | ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架

> 本文同步发布在 [TensorFlow 微信公众号](https://mp.weixin.qq.com/s/IQMXg6nIJO-9-IG3mJpvRg "TensorFlow 微信公众号")、[知乎 SQLFlow 专栏](https://zhuanlan.zhihu.com/sqlflow "SQLFlow 知乎专栏"),获得作者授权在开源中国发布,原作者为蚂蚁集团 齐俊、王益 ElasticDL 是一个基于 TensorFlow 2.x 和 Kubernetes 的开源的分布式深度学习编程框架。2019 年秋天的 Google Developer Day 活动中来自蚂蚁金服的 ElasticDL ...

1
12
2019/09/11 18:10

ElasticDL:蚂蚁金服开源基于TensorFlow的弹性分布式深度学习系统

9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为:elasticdl.org 开源中国采访了ElasticDL项目负责人王益,对该深度学习系统的技术细节进行了全面介绍。 基于 TensorFlow 2.0 和 Kubernetes 实现弹性深度学习 这个基于 Eager Execution模式的开源项目名为“ElasticDL”,它是一个Kubernetes 原生深度学习框架,根据介绍,Elast...

0
0
2019/09/16 19:42

ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为:[https://github.com/sql-machine-learning/elasticdl/](https://github.com/sql-machine-learning/elasticdl/) 开源中国采访了 ElasticDL 项目负责人王益,对该深度学习系统的技术细节进行了全面介绍。 ![image.png](https://cdn.nlark.com/yuque/0/2019/png/226702/156862837...

0
0
2020/07/13 16:48

支付宝如何优化深度学习集群,解决两大痛点?

ElasticDL 是一个基于 TensorFlow 2.x 和 Kubernetes 的开源的分布式深度学习编程框架。2019 年秋天的 Google Developer Day 活动中来自蚂蚁金服的 ElasticDL 团队展示了 ElasticDL 的第一个开源版本。本文更新这大半年来 ElasticDL 项目的进展,尤其是性能优化和业务落地。 文 / 蚂蚁集团, ElasticDL 主力工程师 齐俊 ElasticDL https://github.com/sql-machine-learning/elasticdl ElasticDL 的首要设计意图是简化分布式编程...

0
0
2019/09/20 09:53

Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

![file](https://oscimg.oschina.net/oscnet/db0cb62ac4d9153a9403742e52bc8e48ca3.jpg) 作者:心贵、进超、元毅、心水、衷源、洗兵 # 业界要闻 ## [Kubernetes v1.16 发布](https://github.com/kubernetes/kubernetes/blob/master/CHANGELOG-1.16.md) 在这次发布中值得关注的一些特性和 Feature: - CRD 正式进入 GA 阶段; - Admission Webhook 正式进入 GA 阶段; - CSI 和 Volume 的一系列增强和修复。 ## [蚂蚁金服开源 El...

0
0
发表了博客
2019/04/10 10:10

Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段; Admission Webhook 正式进入 GA 阶段; CSI 和 Volume 的一系列增强和修复。 蚂蚁金服开源 ElasticDL 项目 9 月 11 日,蚂蚁金服在 2019 谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。ElasticDL 实现了容错和弹性调度的...

0
0
2019/10/17 19:18

支付宝王益:40岁写30年代码是一种什么体验?

对于蚂蚁金服研究员王益而言,2019年是个颇有纪念意义的年份。今年他整40岁。从10岁开始,写代码整30年。这30年来,他当过“不务正业”的学生,创纪录地在大一就考下系统分析员,“单枪匹⻢”闯荡过从国内到硅谷的多家知名互联网科技公司,和AI领域许多传奇人物都有所交集。不惑之年对于许多工程师来说,或许已是需要焦虑的年龄,但40岁的王益在蚂蚁金服每天都过得很充实:起床,自由泳一千米,然后去做他最喜欢的事——写代码和...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2019/09/20 10:16

Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段; Admission Webhook 正式进入 GA 阶段; CSI 和 Volume 的一系列增强和修复。 蚂蚁金服开源 ElasticDL 项目 9 月 11 日,蚂蚁金服在 2019 谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。ElasticDL 实现了容错和弹性调度的...

6
18
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
120 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部