加载中

Polars - 快速多线程 DataFrame 库

Polars 是一个 Rust 和 Python 中的快速多线程 DataFrame 库/内存查询引擎。它使用 Apache Arrow(2) 作为内存模型在 Rust 中实现。并行执行、高效的...

收藏 2

Nextjournal - 多语言 notebook

Nextjournal是一款多语言 notebook,从头开始设计,使复杂的数据科学无痛。允许用户灵活地使用Bash、Python、R、Julia或Clojure进行编码,而且可以创建包含多个运...

收藏 6
Nextjournal

Koalas - Apache Spark Pandas API

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。 Pandas是Python中事实上的...

收藏 6

Delta Lake - 用于大数据的存储层

Delta Lake 是一个存储层,为 Apache Spark 和大数据 workloads 提供 ACID 事务能力,其通过写和快照隔离之间的乐观并发控制(optimistic concur...

收藏 75
更新于 2019/10/19
Delta Lake

Moonbox - 数据虚拟化即服务(DVtaaS)平台解决方案

Moonbox是一个DVtaaS(Data Virtualization as a Service)平台解决方案。 Moonbox基于数据虚拟化设计思想,致力于提供批量计算服务解决方案。Moon...

收藏 26
更新于 2019/04/26

Modin - 更改一行代码扩展 pandas 工作流

Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。 与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用Data...

收藏 7
Modin

Trill - 高性能流分析引擎

Trill 是 Microsoft Research 开源的高性能单通道内存流分析引擎,它基于时态数据(temporal data)和查询模型(query model),可处理实时和离线数据。 ...

收藏 39
更新于 2019/01/03

Sylph - 一站式流计算平台

简介 Sylph 被定位为大数据生态中的一站式流计算平台,您可以使用它来开发、管理、监控、运维您的流计算. 什么没看懂? 没关系apache-hive您总听过吧?(如果依然不知道,那么您最先需要...

收藏 53
更新于 2019/04/26
Sylph

Jupyter Notebook - Web 交互式计算笔记本平台

Jupyter Notebook 是一个基于 Web 的交互式计算笔记本环境。 Jupyter Notebook 允许用户创建和共享各种内容,包括实时代码、方程式、可视化和叙述文本的文档。它的用...

收藏 22
更新于 2019/11/13

SpinalTap - 变更数据捕获服务​

SpinalTap —— 通用可靠的变更数据捕获(Change Data Capture: CDC)服务 SpinalTap 是一种可扩展、高性能、可靠、无损的变更数据捕获(CDC)服务,能够检...

收藏 32
更新于 2018/09/28

TonY - 构建在 Hadoop YARN 上的 TensorFlow 框架​​​​​​​

TensorFlow on YARN (TonY) 是一个构建在 Hadoop YARN 上的 TensorFlow 框架。 TonY 可以将单节点或分布式 TensorFlow 训练作为 Ha...

收藏 13
更新于 2021/08/27
TonY

Metacat - 元数据发现服务框架

Metacat 是一个联合的元数据 API 服务,可以访问 Hive、RDS、Teradata、Redshift、S3 和 Cassandra。 Metacat 为您提供您所拥有的数据信息,包括...

收藏 19

finndycloud - 开源分布式云采集工具化引擎

发源地开源云采集引擎 发源地云采集引擎是由发源地研发团队开发的一套开源分布式云采集工具化引擎,致力于让用户快捷挖掘大数据矿山背后的价值! 发源地云采集引擎完全基于云端,集数据采集、清洗、去重、加...

收藏 29

Apache Fluo - 大规模数据集增量处理系统

Apache Fluo 是 Google Percolator(搜索索引)的开源实现,允许用户对存储在 Apache Accumulo 中的大型数据集进行增量更新,而无需重新处理所有的数据。与批...

收藏 40
更新于 2018/03/08
Apache Fluo

Laxcus - 大数据管理系统

Laxcus 是一个多集群多用户多任务通用数据管理系统,支持百万级计算机节点,提供 EB 级可计算数据的存储和计算能力,综合云管理、大数据、数据库、中间件、容器五个领域的技术和功能,集运行、开发...

收藏 68
更新于 2018/01/23
开源软件作者
openEuler 作者
srczh_java 作者
Iven-alfred-google-translate 作者

Apache Edgent - 面向物联网设备的运行时

Apache Edgent 是一种编程模型和具有微内核风格的运行时,可嵌入到网关和小型的物联网设备中。Apache Edgent 能用于对来自器材、车辆、系统、应用、设备和传感器(例如树莓派或智...

收藏 99
更新于 2018/01/05
Apache Edgent

HPAT - 基于编译器的大数据框架

HPAT 是一个基于编译器的大数据框架,使用 Python 编写。 高性能分析工具包(HPAT)是一个基于编译器的框架,用于群集/云环境中的大数据分析和机器学习,既易于使用又非常快速;它比 Ap...

收藏 3

KSQL - 用于 Apache Kafka 的流数据 SQL 引擎

KSQL 用于 Apache Kafka 的流数据 SQL 引擎 注意:项目还处于开发者预览版,请暂时勿用于生产集群中。 KSQL 是 Apache Kafka 的开源流 SQL 引擎。 它为 ...

收藏 95
更新于 2018/12/16
KSQL

RuisiBI-OLAP - 睿思 BI-OLAP 多维分析系统

睿思BI-OLAP系统支持对数据表的OLAP查询,无需编写任何的代码,用户只需要通过语义层的定义就可以轻松搭建自己的多维数据模型并进行数据多维查询及可视化。 产品优势 简单易用 :系统十分易用,...

收藏 54

tinympi4j - 微型 java 分布式离线计算框架

tinympi4j 是一款微型的 java 分布式离线计算框架, 实现原理如图: 特性 简单直观, 没有任何学习难度 slave支持多个任务并发/并行执行 使用HTTP协议通信 场景: 找素数/...

收藏 40

没有更多内容

加载失败,请刷新页面

返回顶部
顶部