云原生分布式训练解决方案 FTLib

Apache
Python 查看源码»
跨平台
2020-03-20
才云科技

FTLib(Fault-Tolerant Library)是一个支持弹性伸缩和自动容错的云原生分布式训练解决方案,旨在帮助企业应对因训练数据量激增产生的意外情况,真正部署和运行大规模的分布式训练。为了向不同用户提供不同级别的 API,避免对训练框架的侵入式修改,FTLib 已被作为一个库引入到 Python 中,因此,它可以针对不同需求提供不同的 API。

的码云指数为
超过 的项目
加载中
请先登录后再评论。

暂无资讯

暂无问答

才云开源云原生分布式训练项目 FTLib:支持弹性伸缩、自动容错

近年来,随着数据的大量累积和深度学习的不断发展,无论是训练数据还是模型,它们在体量上都增长迅速,而单节点的算力提升却变得愈发昂贵。面对这种情况,分布式模型训练应运而生。 所谓分布...

03/20 17:07
31
0
案例分享 | ElasticDL:同时提升集群利用率和研发效率的分布式深度学习框架

本文同步发布在 TensorFlow 微信公众号、知乎 SQLFlow 专栏,获得作者授权在开源中国发布,原作者为蚂蚁集团 齐俊、王益 ElasticDL 是一个基于 TensorFlow 2.x 和 Kubernetes 的开源的分布式...

07/09 13:44
9.2K
3
支付宝如何优化深度学习集群,解决两大痛点?

ElasticDL 是一个基于 TensorFlow 2.x 和 Kubernetes 的开源的分布式深度学习编程框架。2019 年秋天的 Google Developer Day 活动中来自蚂蚁金服的 ElasticDL 团队展示了 ElasticDL 的第一个...

07/13 16:48
44
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部