OpenMLDB 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
OpenMLDB 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
OpenMLDB 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 Apache
操作系统 跨平台
软件类型 开源软件
开源组织
地区 国产
投 递 者 zombie_
适用人群 未知
收录时间 2021-07-14

软件简介

OpenMLDB是一个面向机器学习应用提供正确、高效数据供给的开源数据库。除了超过10倍的机器学习数据开发效率的提升,OpenMLDB也提供了统一的计算与存储引擎减少开发运维的复杂性与总体成本。

系统特性

  • 一致性

    OpenMLDB首先保证在线和离线特征计算一致性,科学家使用OpenMLDB建模生成的特征,可规避特征穿越等问题,上线后使用相同LLVM IR进行编译优化,保证与在线特征计算逻辑一致。其次保证数据存储一致性,数据从离线到在线进行实时同步,用户不需要为离线和在线管理不同数据源,也避免数据不一致对特征和模型带来的影响。

  • 高性能

    OpenMLDB基于C++和LLVM实现了原生SQL编译器,内置了数十种物理计划和表达式优化过程,可针对不同硬件环境动态生成二进制码,内存结构针对特征存储优化。最终特征存储空间和成本比同类产品可降低9倍,在线实时特征计算性能提升9倍,离线批处理计算性能比同类产品也提升6倍以上。

  • 高可用

    OpenMLDB的大规模并行计算服务和数据库存储服务,都支持多节点分布式高可用特性,可以自动Failover避免单点故障。

  • SQL支持

    OpenMLDB支持用户友好的SQL接口,兼容大部分ANSI SQL语法以及针对AI场景拓展了新的SQL特性。以时序特征抽取为例,支持标准SQL的Over Window语法,还针对AI场景需求进行拓展,支持基于样本表滑窗的Window Union语法,实时计算引擎支持基于当前行的Request Mode窗口聚合计算。

  • AI优化

    OpenMLDB以面向ML应用开发优化为目标,架构设计以及实现上都针对AI进行大量优化。在存储方面以高效的数据结构存储特征数据,无论是内存利用率还是实时查询效率都比同类型产品高数倍,而计算方面提供了机器学习场景常用的特殊拼表操作以及特征抽取相关UDF/UDAF支持,基本满足生产环境下机器学习特征抽取和上线的应用需求。

  • 低门槛

    OpenMLDB使用门槛与普通数据库接近,无论是建模科学家还是应用开发者都可以使用熟悉的SQL进行开发,并且同时支持ML应用落地所必须的离线大数据批处理服务以及在线特征计算服务,使用一个数据库产品就可以低成本实现AI落地闭环。

快速开始

使用OpenMLDB快速开发和上线ML应用,以Kaggle比赛Predict Taxi Tour Duration项目为例。

# 启动docker镜像
docker run -it 4pdosc/openmldb:0.1.0 bash

# 初始化环境
sh init.sh

# 导入行程历史数据到OpenMLDB
python3 import.py

# 使用行程数据进行模型训练
python3 train.py ./fe.sql /tmp/model.txt

# 使用训练的模型搭建链接OpenMLDB的实时推理HTTP服务
sh start_predict_server.sh ./fe.sql 8887 /tmp/model.txt

# 通过http请求发送一个推理请求
python3 predict.py

系统架构

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
11/19 13:46

OpenMLDB 11 月份社区会议纪要

OpenMLDB 社区于近期邀请了社区的贡献者和使用者举行了十一月份的社区会议。本次会议主要总结了 OpenMLDB 0.3.0 版本的更新,以及讨论 0.4.0 版本的几个重要需求规划。同时,社区成员对于 OpenMLDB 后续的需求和社区发展规划提供了宝贵的建议。 社区反馈 会议上,社区小伙伴们对于 OpenMLDB 项目和社区的发展提供了很多宝贵的建议,主要记录如下: Benchmark 不仅需要和现有工具的比对,而且需要明确 OpenMLDB 本身的能力边界,...

1
3
10/08 12:15

OpenMLDB Weekly:修复集成测试中 SQL 优化过程重复优化子节点的问题

OpenMLDB Summary 本周合并 Pull requests 5个,新增Pull requests 6个,关闭 Issues 1个,新增 Issues 5个。总计150个文件修改,新增531行代码,删除432行代码。 Merged Pull Requests fix: remove dup apply pass on the same physical op#453 merged 5 days ago feat: revert hadoop common version to 2.7.1 for batch#482 merged 6 days ago feat: add taskmanager as java submodule#481 merged 6 days ago style: updat...

0
1
09/28 16:07

OpenMLDB Weekly:重新设计和实现高性能单机版

OpenMLDB Summary 本周合并 Pull requests 8个,新增Pull requests 5个,关闭 Issues 11个,新增 Issues 20个。总计84个文件修改,新增6677行代码,删除511行代码。 Merged Pull Requests feat: support spark.master config to run job in yarn or local#466 feat: read openmldb git properties and set in return string#464 feat: enable `TestWindowUnion` test#467 feat: bump snakeyaml from 1.17 to 1.26 in /test/bat...

0
1
09/22 14:44

OpenMLDB Weekly:增加 IntegrationTest 集成测试模块

OpenMLDB Summary 本周合并 Pull requests 12个,新增Pull requests 4个,关闭 Issues 6个,新增 Issues 18个。总计353个文件修改,新增36056行代码,删除879行代码。 Merged Pull Requests feat: add integration test cicd#434 feat: add batchjob as java submodules#386 feat: add kubernetes java dependencies for taskmanager#400 fix: fix count in some yaml cases#436 feat: add a new optimization for expanding d...

0
1
09/10 14:12

第四范式正式成为 OpenI 启智社区成员

近日,第四范式正式加入新一代人工智能开源开放平台OpenI启智社区。 OpenI启智社区是根据《国务院关于印发新一代人工智能发展规划的通知》(国发〔2017〕35号),由新一代人工智能产业技术创新战略联盟(AITISA)组织产学研用通力协作共建共享的开源软件开源硬件开放数据超级社区,旨在通过构建开源开放生态、搭建软硬件开发环境、汇聚和孵化优秀AI开源项目、鼓励开发者参与AI开源项目开发等方式,促进人工智能领域的开源开放协...

1
1
09/10 14:10

OpenMLDB Weekly Update:提升性能稳定性

Summary 本周合并 Pull requests 18个,新增Pull requests 9个,关闭 Issues 10个,新增 Issues 26个。总计94个文件修改,新增1502行代码,删除7764行代码。发布Release版本v0.2.3。了解OpenMLDB Merged Pull Requests docs: add the demo link in readme#305 docs: add a new logo#364 refactor: refact AppendEntries in log replicator#327 fix: sql and ns client desc result#341 docs: add compile doc#346 docs: new sh...

0
0
08/19 19:11

国内 AI 领域首次!第四范式 OpenMLDB 优化创新论文被国际数据库顶会 VLDB 录用

第四范式OpenMLDB优化创新论文被国际数据库顶会VLDB录用,为国内AI领域首次 第四范式与新加坡国立大学及英特尔的最新联合研究成果——基于持久内存优化的AI实时决策系统数据库OpenMLDB(Open Source Machine Learning Database)被国际数据库顶级会议VLDB 2021录用。 VLDB (Very Large Data Base) 是数据库研究人员、厂商、应用开发者,以及用户广泛参与的年度国际会议,它与SIGMOD、ICDE被公认为数据管理与数据库领域的三大国际...

0
10
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
暂无内容
0 评论
8 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部