加载中

Brooklin - 近实时大规模数据流式传输

Brooklin 是一种近实时的大规模数据流分布式服务,LinkedIn 自 2016 年以来一直在使用这项服务,支撑每天数千个数据流和超过 2 万亿条消息。 为什么要开发 Brooklin? ...

收藏 10

xarray - 在 NumPy 多维数组中加入变量名与坐标索引

xarray 是一个开源 Python 包,它可以使处理多维数组更加简单、高效并有趣。xarray 在原始类 NumPy 多维数组中引入了标签化的变量名称和坐标索引,实现了更直观、更简洁和更加不...

收藏 7
xarray

gmq - 基于 golang 和 redis 实现的简易队列

1. 概述 gmq是基于redis提供的特性,使用go语言开发的一个简单易用的队列;关于 redis 使用特性可以参考之前本人写过一篇很简陋的文章 Redis 实现队列;gmq的灵感和设计是基于...

收藏 5

http-mock-middleware - http mock 库

http-mock-middleware 是一个 http mock 库,或者说 ajax/websocket mock 库,它接收来自 web 前端页面的 ajax/websocket 请求,...

收藏 2

PackOne - 大数据软件栈部署与管理工具

PackOne 致力于实现主流大数据软件在云端的快速弹性部署。通过对云 API 和 Apache Ambari API 的联合调用,完成 Hadoop、Spark、NiFi、PiFlow、Kyl...

收藏 62
更新于 2019/07/10
PackOne

OpenCTI - 开放的网络威胁情报平台

OpenCTI 即 Open Cyber Threat Intelligence Platform,开放网络威胁情报平台。它的创建是为了构建、存储、组织和可视化有关网络威胁的技术和非技术信息。 ...

收藏 53
更新于 2019/07/06
OpenCTI

Koalas - Apache Spark Pandas API

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。 Pandas是Python中事实上的...

收藏 4

Data Accelerator - 简化流数据处理的数据管道

Data Accelerator 的一些方法可以更容易地在 Apache Spark 上构建流式传输管道: 即插即用:轻松设置输入源和输出接收器,以便在几分钟内建立管道。Data Acceler...

收藏 9
更新于 2019/04/23

Piflow - 大数据流水线系统

Piflow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件,以所见即所得方式进行流水线配置。简单易用,功能强大。它具有如下特性...

收藏 110
更新于 2019/03/20
Piflow

MacroBase - 数据分析工具

MacroBase 是一个数据分析工具,利用机器学习优先处理大型数据集。 具体来说,MacroBase 是一个新的分析监督引擎,旨在进行大型数据集和数据流优先处理。与传统的分析引擎不同,Macr...

收藏 8
MacroBase

Hazelcast Jet - 基于 Hazelcast 的分布式数据处理引擎

Hazelcast Jet 是一个分布式计算平台,专为高性能流处理和快速批处理而构建。它在内存数据网格(IMDG)中嵌入Hazelcast,以提供轻量级的处理器包和可扩展的内存存储。 特性: 低...

收藏 47
更新于 2017/11/22
Hazelcast Jet

AthenaX - 数据流分析平台

AthenaX 是 Uber 的内部流分析平台,旨在满足以下需求并为每一个人提供可访问的流分析能力: (1)轻松为各类用户提供导航服务,而无需对其技术背景提出任何要求 ; (2)以可扩展及高效方...

收藏 10

Vespa - 开放大数据服务引擎

Vespa 是雅虎开源的针对大数据集的低延迟计算引擎。它存储和索引数据,以便在服务时间对数据进行查询、选择和处理。 Vespa 可实现: 使用类似 sql 的查询和非结构化搜索来选择内容 组织所...

收藏 9
Vespa

Wormhole-SPAAS - 流式处理平台

Wormhole 是一个 SPAAS(Stream Processing as a Service)平台解决方案。Wormhole 面向大数据项目的开发,运维以及管理人员,致力于简化和统一开发管...

收藏 10

Apache Geode - 数据管理平台

概览 Apache Geode 是一个数据管理平台,提供实时的、一致的、贯穿整个云架构地访问数据关键型应用. Geode 池化了服务器上的内存, CPU, 网络资源, 和本地磁盘,跨多个进程来管...

收藏 301
更新于 2018/10/05
Apache Geode
开源软件作者
xiaodingding
SuperHelper 作者
hyjiacan
vue-slideout 作者
红石头
u100 作者

Surus - 大数据分析集合

Surus 是 Pig 和 Hive 的分析集合,包括以下功能: ScorePMML - 云评测模型工具 Robust Anomaly Detection (RAD) - 健壮的 PCA 实现

收藏 2

MR4C - C++ 的 MapReduce​ 框架

MR4C 是 Google 开发的 C++ 的 MapReduce 框架,你可以在 Hadoop 架构中执行本地代码。 依赖: tested with Ubuntu 12.04 and Cent...

收藏 44
更新于 2015/02/24

Apache HAWQ - 大规模并行 SQL 分析处理引擎

HAWQ 是一个Hadoop原生大规模并行SQL分析引擎,针对的是分析性应用。和其他关系型数据库类似,接受SQL,返回结果集。 Apache HAWQ 具有大规模并行处理很多传统数据库以及其他数...

收藏 106
更新于 2018/10/01
Apache HAWQ

Cascalog - Hadoop 的数据处理解决方案

Cascalog 是 Hadoop 上的数据处理解决方案,无需 hassle。 Cascalog 是 Clojure 或者 Java 的全功能数据处理和查询库。Cascalog 主要的作用是处理...

收藏 7

Hadapt - 自适应分析平台

Hadapt 是个自适应分析平台,为 Apache Hadoop 开源项目带来了 SQL 实现。Hadoop 非常健壮,并且可伸缩。所以通过其合并了关联数据存储的混合存储层,Hadapt 允许进...

收藏 12

没有更多内容

加载失败,请刷新页面

返回顶部
顶部