DevOps研发效能
媒体矩阵
开源中国APP
授权协议 Apache-2.0
开发语言 Java 查看源码 »
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据处理
开源组织 Apache
地区 不详
投 递 者 Alias_Travis
适用人群 未知
收录时间 2021-02-05

软件简介

Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境。Apache DataSketches 的专用流算法库(也被称为 sketches)包含小型数据结构,并可大规模处理数据。对于那些想要生成精确结果,但又无法承受大量时间和计算资源消耗的查询,sketches 是一个理想的选择。而对于那些能够接受近似结果的客户,sketches 也是附带实时分析交互式查询的唯一可行选择。

特性:

  • 快速:sketches 算法可一次处理适用于实时和批处理的数据。围绕 sketches 设计系统可以简化系统的体系结构,并减少所需的总体计算资源。
  • 大数据:该库专门为必须处理海量数据的生产系统而设计的。该库包括适用于 Apache Hive、Apache Pig 和PostgreSQL(C ++)。具有跨语言(Java,C ++,Python)和平台的特性。
  • 分析:内置的 Theta Sketch 集运算符(Union,Intersection,Difference)生成 sketches,从而启用基数的完整集表达式,例如(A∪B)∩(C∪D)\( E∪F)。这种功能以及可预测的准确性为快速查询提供了前所未有的分析能力。
展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论

点击引领话题📣 发布并加入讨论🔥
发表了资讯
2021/02/05 08:44

Apache 软件基金会将 DataSketches 提升为顶级项目

紧跟着 Apache Superset 和 Apache ECharts 的步伐,Apache 软件基金会(ASF)近日宣布将 Apache DataSketches 提升为顶级项目(Top-Level Project,TLP)。 Apache DataSketches 是开源的高性能大数据流算法库,主要针对大规模计算环境,目前有非常多的企业均在使用,例如:尼尔森、Permutive、Splice Machine 和 Verizon 等。该项目于 2012 年起源于 Yahoo,并于 2015 年开源,随后于 2019 年 3 月进入 Apache 孵化器。 Apac...

2
16
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
发表了问答
{{o.pubDate | formatDate}}

{{formatAllHtml(o.title)}}

{{parseInt(o.replyCount) | bigNumberTransform}}
{{parseInt(o.viewCount) | bigNumberTransform}}
没有更多内容
暂无内容
暂无内容
0 评论
12 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部