软件简介

Dagli 是 LinkedIn 开源的用于 Java(和其他 JVM 语言)的机器学习函数库,其开发团队表示通过它可轻松编写不易出错、可读、可修改、可维护且易于部署的模型管道,而不会引起技术债。Dagli 充分利用了现代多核的 CPU 和功能日益强大的 GPU,可以对真实世界模型进行有效的单机训练。

下面是一个文本分类器的介绍性示例,此文本分类器以管道的形式实现,使用梯度增强决策树模型 (XGBoost) 的主动学习以及高维 ngram 集作为逻辑回归分类器中的特征:

Placeholder<String> text = new Placeholder<>();
Placeholder<LabelType> label = new Placeholder<>(); 
Tokens tokens = new Tokens().withInput(text);

NgramVector unigramFeatures = new NgramVector().withMaxSize(1).withInput(tokens);
Producer<Vector> leafFeatures = new XGBoostClassification<>()
    .withFeaturesInput(unigramFeatures)
    .withLabelInput(label)
    .asLeafFeatures();

NgramVector ngramFeatures = new NgramVector().withMaxSize(3).withInput(tokens);
LiblinearClassification<LabelType> prediction = new LiblinearClassification<LabelType>()
    .withFeaturesInput().fromVectors(ngramFeatures, leafFeatures)
    .withLabelInput(label);

DAG2x1.Prepared<String, LabelType, DiscreteDistribution<LabelType>> trainedModel = 
    DAG.withPlaceholders(text, label).withOutput(prediction).prepare(textList, labelList);

LabelType predictedLabel = trainedModel.apply("Some text for which to predict a label", null);
// trainedModel now can be serialized and later loaded on a server, in a CLI app, in a Hive UDF...
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (1)

加载中
好复杂的专业述语。
2020/11/19 14:09
回复
举报
更多评论
发表于软件架构专区
2020/11/16 09:13

LinkedIn 开源 Java 机器学习函数库 Dagli,面向 JVM 优化

LinkedIn 宣布开源 Dagli,Dagli 是一个用于 Java(和其他 JVM 语言)的开源机器学习函数库,其开发团队表示通过它可轻松编写不易出错、可读、可修改、可维护且易于部署的模型管道,而不会引起技术债。Dagli 充分利用了现代多核的 CPU 和功能日益强大的 GPU,可以对真实世界模型进行有效的单机训练。 LinkedIn 提到近年来...

3
13
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
2020/11/13 12:42

LinkedIn发布Dagli,这是Java的开源机器学习库

尽管机器学习的发展每天都在增长,但是来自Algorithmia的一项调查显示,大多数企业花费 8到90天的时间来部ML模型。大多数人将责任归咎于无法扩展,其次是模型可重复性方面的挑战,例如缺乏官方认可和工具不足。 ...

0
0
2020/11/17 10:53

京东智能供应链决策引擎全面开放;LinkedIn开源Dagli,发布Java机器学习函数库

开发者社区技术周刊又和大家见面了,萌妹子主播为您带来最新一期“开发者技术联播”。让我们一起听听,过去一周有哪些值得我们开发者关注的重要新闻吧。 京东智能供应链决策引擎全面开放 LinkedIn开源Dagli,发布...

0
0
发表于AI & 大数据专区
2020/05/02 10:08

理论结合实际:如何调试神经网络并检查梯度

当我们实现神经网络时,反向传播的过程中更容易出错。因此,如果我们能够实现一些使我们能够轻松调试神经网络的工具,那将是多么酷。在这里,我们将看到“梯度检查”的方法。简而言之,该方法使用数值方法近似梯度...

0
0
2020/11/16 09:07

机器学习自学成才的十条戒律

作者 | Daniel Bourke 译者 | 盖磊 策划 | 陈思 在机器学习技能自学成才的过程中,我们必须对自身的教育和启蒙负责。本文列出了十条不应掉以轻心的戒律。前车之鉴,后车之师。 在机器学习技能自学成才的过程中,我...

0
0
2020/11/24 10:02

2021年全球公有云终端用户支出将增长18% ;EMNLP 2020最佳论文:无声语音的数字发声

开发者社区技术周刊又和大家见面了,让我们一起看看,过去一周有哪些值得我们开发者关注的重要新闻吧。 2020 了,最流行的密码依旧是 123456 Chrome 87 发布,获多年来最大性能提升 Gartner:2021年全球公有云终端...

0
0
2020/12/01 16:12

京东成立探索研究院,打造产业数智化首个源头性科技高地; AI 论文:让机器像人类一样感知三维真实世界

开发者社区技术周刊又和大家见面了,让我们一起看看,过去一周有哪些值得我们开发者关注的重要新闻吧。 京东成立探索研究院,打造产业数智化首个源头性科技高地 微软确认正开发 CloudPC 服务:将你的 Win10 迁移到...

0
0
2020/12/08 11:22

K8s 将弃用 Docker;TypeScript 超越 C++ 成第四大语言

开发者社区技术周刊又和大家见面了,让我们一起看看,过去一周有哪些值得我们开发者关注的重要新闻吧。 Kubernetes 将弃用 Docker TypeScript 超越 C++ 成第四大语言 ASML 已完成 1nm 光刻机设计 摩尔定律再次重新...

0
0
发表了博客
2020/05/04 13:10

理论结合实际:如何调试神经网络并检查梯度

当我们实现神经网络时,反向传播的过程中更容易出错。 因此,如果我们能够实现一些使我们能够轻松调试神经网络的工具,那将是多么酷。 在这里,我们将看到“梯度检查”的方法。 简而言之,该方法使用数值方法近似梯度。 如果实际的梯度接近计算得出的梯度,则可以正确实施反向传播。 还有很多其他方法,让我们一起看看。...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
1 评论
7 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部