DMTK 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
DMTK 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
DMTK 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
DMTK 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
DMTK 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !
授权协议 MIT
开发语言 C/C++
操作系统 跨平台
软件类型 开源软件
开源组织 微软
地区 不详
投 递 者 孔小菜
适用人群 未知
收录时间 2015-11-11

软件简介

DMTK 是微软分布式机器学习工具包。

微软分布式机器学习DMTK

DMTK 包括以下几个项目:

DMTK (Dstributed Machine Learning Toolkit) 当前包括以下组件:

  • DMTK分布式机器学习框架:它由参数服务器和客户端软件开发包(SDK)两部分构成。参数服务器在原有基础上从性能和功能上都得到了进一步提升 ——支持存储混合数据结构模型、接受并聚合工作节点服务器的数据模型更新、控制模型同步逻辑等。客户端软件开发包(SDK)支持维护节点模型缓存(与全局 模型服务器同步)、节点模型训练和模型通讯的流水线控制、以及片状调度大模型训练等。

  • LightLDA:LightLDA是一种全新的用于训练主题模型,计算复杂度与主题数目无关的高效算法。在其分布式实现中,我们做了大量的系统 优化使得 LightLDA能够在一个普通计算机集群上处理超大规模的数据和模型。例如,在一个由8台计算机组成的集群上,可以在具有2千亿训练样本(token) 的数据集上训练具有1百万词汇表和1百万个话题(topic)的LDA模型(约1万亿个参数),这种规模的实验以往要在数千台计算机的集群上才能运行。

  • 分布式词向量:词向量技术近来被普遍地应用于计算词汇的语义表示,它可以用作很多自然语言处理任务的词特征。微软为两种计算词向量的算法提供了高效的分步式实现:一种是标准的word2vec算法,另一种是可以对多义词计算多个词向量的新算法。

(部分介绍来自 IT168)

展开阅读全文

代码

评论 (2)

加载中
正好需要这个,微软万岁 #DMTK#
2015/11/12 09:56
回复
举报
这几天各大顶级公司一天发布一个机器学习工具包什么节奏。 #DMTK#
2015/11/12 13:57
回复
举报
更多评论
暂无内容
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
2 评论
159 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部