BytePS 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
BytePS 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
BytePS 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
BytePS 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
BytePS 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

BytePS 是字节跳动开源的高性能分布式深度学习训练框架,官方宣称 BytePS 在性能上颠覆了过去几年 allreduce 流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持 Tensorflow、PyTorch、MXNet 等开源库。

BytePS 通过实现一个通用的抽象层,抽象层可以被各种通用框架引用,实现了同时支持多个框架的可能性,因此能够支持 Tensorflow、PyTorch、MXNet 等行业主流训练框架。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及 Keras 的插件,用户只要在代码中引用 BytePS 的插件,就可以获得高性能的分布式训练。

BytePS 的核心逻辑则实现在 BytePS core 里。具体的通信细节完全由 BytePS 完成,用户完全不需要操心。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (2)

加载中
厉害
2019/09/26 11:03
回复
举报
厉害
2019/06/28 10:15
回复
举报
更多评论
发表于AI & 大数据专区
2019/06/28 07:59

字节跳动开源高性能分布式训练框架 BytePS:兼容 TensorFlow 等主流框架

近日,字节跳动人工智能实验室宣布开源一款高性能分布式深度学习训练框架 BytePS,在性能上颠覆了过去几年 allreduce 流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持 Tensorflow、PyTorch、MXNet 等开源库。 BytePS 结合了字节跳动人工智能实验室几个月来对分布式训练通信的多个研究与优化成果,包含通信优先级调度、PS 的 RDMA 实现、针对 PCIe switch 与 NUMA 的优化,以及 BytePS 本...

8
42
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/09/04 15:07

BytePS源码解析

# 导入BytePS模块 import byteps.torch as bps # 初始化BytePS bps.init() # 设置训练进程使用的GPU torch.cuda.set_device(bps.local_rank()) local_rank: """A function that returns the local BytePS rank of the calling process, within the node that it is running on. For example, if there are seven processes running on a node, their local ranks will be zero through six, inclusive. Returns...

0
0
发表了博客
2019/08/13 22:25

Nccl allreduce && BytePS原理

一、Nccl AllReduce基本原理: allreduce是collective communication中的一种,其他种类的还有:Broadcast、Scatter、Gather、Reduce等 具体含义可以参考文档:https://images.nvidia.com/events/sc15/pdfs/NCCL-Woolley.pdf、 其中nccl采用一种Undirectional-Ring的单向环算法,可以实现同步时间与卡的个数无关,以BroadCast为例: 假设有4块GPU,传输的数据量为N,传输带宽为B(单机多卡间的传输带宽可以通过cuda/sample下的p...

0
0
2020/12/29 19:30

大幅提升训练性能,字节跳动与清华提出新型分布式DNN训练架构

点击上方“迈微AI研习社”,选择“星标★”公众号 重磅干货,第一时间送达 现有的分布式 DNN 训练架构无法充分利用异构资源实现高性能训练。近期,来自字节跳动和清华大学的研究人员提出一种新型分布式 DNN 训练架构——BytePS,解决了这一问题,实现了大规模训练性能的显著提升。这项工作已在国际顶级计算机系统会议 OSDI’20 上发表,其开源代码在 GitHub 上获得 2400 stars。 论文链接:https://www.usenix.org/conference/o...

0
0
2020/03/21 22:37

大佬评清华Jittor,这是怎样一个深度学习框架?

点击上方“机器学习与生成对抗网络”,关注"星标" 获取有趣、好玩的前沿干货! 如何评价清华大学发布的自研深度学习框架-计图(Jittor)? 2020年3月20日,清华自研的深度学习框架,正式对外开源。清华大学计算机系的图形实验室出品,取名Jittor,中文名计图。——知乎问题 https://www.zhihu.com/question/380993685/answer/1092398223 作者:贾扬清 链接:https://www.zhihu.com/question/380993685/answer/1092398223 简单看了...

0
0
2020/04/06 16:00

如何欣赏一个深度学习框架?

点击“机器学习算法与Python实战”,“置顶”公众号 重磅干货,第一时间送达 来自 | 知乎 作者 | 袁进辉 链接 | https://zhuanlan.zhihu.com/p/117269565 编辑 | 深度学习这件小事公众号 本文仅作学术交流,如有侵权,请联系删除 3月份,国内有多个深度学习框架开源,OneFlow也在为开源做最后的准备,2020是深度学习框架领域非常热闹的一年。一个框架好与不好,是有很多维度去看待的,使用者和框架开发者的关注点可能就不一样。...

0
0
01/17 12:00

字节跳动云原生:机器学习平台建设实践

经过内部、外部落地实践的反复检验,如今字节跳动技术团队打造的机器学习平台已经成为一个成熟的一站式端到端智能中台。 发布 | 火山引擎云原生 作者 | 邓德源(字节跳动)、易百忍(AI Lab) 现代机器学习系统发展到现在,需要支持从数据管理、特征工程、模型训练,再到模型上线、推理和监控等各种环节,涉及的模块和依赖众多,支撑的业务需求也复杂多变,因此打造一个工程化的机器学习平台对于技术落地至关重要。 字节跳动内部...

0
0
2020/12/08 14:44

【深度学习】— 各框架分布式训练简介+测评

【深度学习】— 各框架分布式训练简介+测评 1.各框架分布式简介 1.Pytorch 从官方文档上我们可以看到,pytorch的分布式训练,主要是torch.distributed包所提供,主要包含以下组件: Distributed Data-Parallel Training (DDP) RPC-Based Distributed Training (RPC) Collective Communication (c10d) 其中,DDP提供了数据并行相关的分布式训练接口;RPC提供了数据并行之外,其他类型的分布式训练如参数服务器模式、pipeline并行...

0
0
2020/08/03 09:25

OneFlow特点与机器学习的未来

原文来自:https://www.zhihu.com/question/409036335/answer/1373468192 本文的主要内容如下: 自我介绍 OneFlow的设计思路,它的独特性 OneFlow的特色一:Actor机制 OneFlow的特色二:SBP机制 我对人工智能/深度学习未来的看法 对OneFlow开源的感想 总结 一、 自我介绍 我是OneFlow的一名工程师,在公司创业之初就加入了。研究生就读于清华软院,读研期间在OneFlow实习了两年,毕业之后正式入职一年。我对OneFlow的整体设计是...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
2 评论
76 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部