用于 Spark Streaming 的数据挖掘 streamDM

用于 Spark Streaming 的数据挖掘 streamDM

Apache
Scala 查看源码»
Linux
华为
2016-11-14
局长

streamDM,是由华为诺亚方舟实验室开源的使用 Spark Streaming 挖掘大数据的开源软件。

大数据流学习

大数据流学习(Big Data stream learning)比批量或离线学习更富有挑战性,因为数据在流动的过程中不太可能保持同一种分布。而且,数据流中的每一个样本只能被处理一次,否则它们就需要占用内存进行总结,同时该学习算法也必须非常高效。

Spark Streaming

Spark Streaming 是核心 Spark API 的一个扩展,它能让多个源的数据流处理成为可能。Spark 是一个可扩展可编程的框架,用于大规模分布式数据集(也称为弹性分布式数据集(RDD))处理。Spark Streaming 接收输入的数据流后将数据分批,再由 Spark 引擎处理,生成结果。

Spark Streaming 数据被编成一个 DStreams 序列,内在地表示成一个 RDD 序列。

包含以下方法:

在第一次开放的 StreamDM 中,我们部署了:

我们部署了以下数据生成器

  • HyperplaneGenerator

  • RandomTreeGenerator

  • RandomRBFGenerator

  • RandomRBFEventsGenerator

我们部署了 SampleDataWriter

它可以调取数据生成器创建样本数据用于模拟和测试。后面我们将计划开放:

  • 分类:随机森林

  • 回归:Hoeffding 回归树,Bagging,随机森林

  • 聚类:Clustree, DenStream

  • Frequent Itemset Miner:IncMine, IncSecMine

下一步

为了快速介绍一下 StreamDM 的运行,请打开 Getting Started 文件StreamDM Programming Guide 展示了 StreamDM 的细节。完整的 API 文档,可以参考这里:http://huawei-noah.github.io/streamDM/api/index.html

部分内容转载自机器之心

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

用DirectX Audio和DirectShow播放声音和音乐(5)

使用DirectMusic 在DirectAudio 中,DirectSound负责数字音频方面的处理,而DirectMusic则负责Midi文件(Musical Instrument Data Interface,数字音乐格式,.mid作为文件扩展名),DirectM...

2016/06/20 13:38
3
0
用DirectX Audio和DirectShow播放声音和音乐(5)

使用DirectMusic 在DirectAudio 中,DirectSound负责数字音频方面的处理,而DirectMusic则负责Midi文件(Musical Instrument Data Interface,数字音乐格式,.mid作为文件扩展名),DirectM...

2016/06/20 13:39
0
0
用DirectX Audio和DirectShow播放声音和音乐(5)

使用DirectMusic 在DirectAudio 中,DirectSound负责数字音频方面的处理,而DirectMusic则负责Midi文件(Musical Instrument Data Interface,数字音乐格式,.mid作为文件扩展名),DirectM...

2016/06/20 13:40
0
0
用DirectX Audio和DirectShow播放声音和音乐(5)

使用DirectMusic 在DirectAudio 中,DirectSound负责数字音频方面的处理,而DirectMusic则负责Midi文件(Musical Instrument Data Interface,数字音乐格式,.mid作为文件扩展名),DirectM...

2016/06/20 13:38
0
0
TiDB Ecosystem Tools 原理解读系列(三)TiDB-DM 架构设计与实现原理

作者:张学程 简介 TiDB-DM(Data Migration)是用于将数据从 MySQL/MariaDB 迁移到 TiDB 的工具。该工具既支持以全量备份文件的方式将 MySQL/MariaDB 的数据导入到 TiDB,也支持通过解析执行...

2018/12/27 11:27
14
0
DM 源码阅读系列文章(二)整体架构介绍

作者:张学程 本文为 DM 源码阅读系列文章的第二篇,第一篇文章 简单介绍了 DM 源码阅读的目的和规划,以及 DM 的源码结构以及工具链。从本篇文章开始,我们会正式开始阅读 DM 的源码。 本篇...

03/26 10:22
9
0
DM 源码阅读系列文章(一)序

作者:杨非 前言 TiDB-DM 是由 PingCAP 开发的一体化数据同步任务管理平台,支持从 MySQL 或 MariaDB 到 TiDB 的全量数据迁移和增量数据同步,在 TiDB DevCon 2019 正式开源。作为一款连接 My...

03/20 11:22
13
0
DM 源码阅读系列文章(三)数据同步处理单元介绍

作者:lan 本文为 DM 源码阅读系列文章的第三篇,上篇文章 介绍了 DM 的整体架构,DM 组件 DM-master 和 DM-worker 的入口代码,以及两者之间的数据交互模型。本篇文章详细地介绍 DM 数据同步...

04/11 11:33
12
0
XMPP协议学习笔记

XMPP协议学习笔记

2014/11/18 11:20
88
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部