Kubernetes 原生深度学习框架 ElasticDL

MIT
Python 查看源码»
跨平台
蚂蚁金服
2019-09-11
h4cd

ElasticDL 是一个基于 TensorFlow 2.0 构建的 Kubernetes 原生深度学习框架,支持容错和弹性调度。

TensorFlow 具有故障可恢复的原生分布式计算功能,在某些进程挂掉的情况下,分布式计算作业将停止,但是可以重新启动作业并从最新的检查点文件中恢复其原有状态。

ElasticDL 在此基础上支持容错。ElasticDL 不需要检查点也不需要从检查点恢复,在某些进程挂掉的情况下,该作业将继续运行。

容错的特性使得 ElasticDL 与基于优先级的 Kubernetes 抢占一起实现了弹性调度能力。当 Kubernetes 杀死某个作业的某些进程以为具有更高优先级的新作业释放资源时,当前作业不会停止,而是使用更少的资源继续运作。弹性调度可以显着提高集群的整体利用率。

ElasticDL 弹性调度的特点来自其 Kubernetes 原生设计,它不依赖于像 Kubeflow 这样的 Kubernetes 扩展来运行 TensorFlow 程序。ElasticDL 作业的主进程直接调用 Kubernetes API 来启动工作程序和参数服务器,它还会监视诸如 process/pod killing 之类的事件,并对此类事件做出反应以实现容错。

此外,ElasticDL 还可以与 SQLFlow 配合,更加易于使用。

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

6
回答
Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正...

09/20 10:16

没有更多内容

加载失败,请刷新页面

没有更多内容

ElasticDL:蚂蚁金服开源基于 TensorFlow 的弹性分布式深度学习系统

9 月 11 日,蚂蚁金服在2019谷歌开发者大会上海站上开源了 ElasticDL 项目,这是业界首个基于 TensorFlow 实现弹性深度学习的开源系统。 开源地址为:https://github.com/sql-machine-learni...

09/16 19:42
66
0
ElasticDL: Kubernetes-native 弹性分布式深度学习系统

9月11日,蚂蚁金服在 Google Developer Day Shanghai 2019 上宣布开源了基于 TensorFlow 2.0 eager execution 的分布式深度学习系统 ElasticDL。基于 TensorFlow 的支持弹性调度的深度学习系...

09/16 15:24
126
0
Kubernetes v1.16 发布 | 云原生生态周报 Vol. 20

作者:心贵、进超、元毅、心水、衷源、洗兵 业界要闻 Kubernetes v1.16 发布 在这次发布中值得关注的一些特性和 Feature: CRD 正式进入 GA 阶段; Admission Webhook 正式进入 GA 阶段; CS...

09/20 09:53
12
0
当金融科技遇上云原生,蚂蚁金服是怎么做安全架构的?

蚂蚁金服在过去十五年重塑支付改变生活,为全球超过十二亿人提供服务,这些背后离不开技术的支撑。在 2019 杭州云栖大会上,蚂蚁金服将十五年来的技术沉淀,以及面向未来的金融技术创新和参会...

10/15 19:14
15
0
阿里巴巴的云原生与开发者

作者 | 李响 阿里云资深技术专家 关注“阿里巴巴云原生”公众号,回复关键词“容器”,可下载云栖大会容器专场全部 PPT 摘要:利用云原生技术构建应用简便快捷,部署应用轻松自如,运行应用按...

10/14 14:05
12
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部