Koalas 正在参加 2020 年度 OSC 中国开源项目评选,请投票支持!
Koalas 在 2020 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
投票让它出道
已投票
Koalas 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」 !
Koalas 获得 2020 年度 OSC 中国开源项目评选「最佳人气项目」「最积极运营项目」 !
Koalas 获得 2020 年度 OSC 中国开源项目评选「最积极运营项目」 !

软件简介

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。

Pandas是Python中事实上的标准(单节点)数据帧实现,而Spark是大数据处理的事实标准。有了这个包,数据科学家可以:

1)如果已经熟悉Pandas,那么使用Spark可以立即提高效率,没有学习曲线。

2)单个代码库就可以用于Pandas(测试,较小的数据集)和Spark(分布式数据集)。

展开阅读全文

代码

的 Gitee 指数为
超过 的项目

评论 (0)

加载中
更多评论
暂无内容
2020/07/06 17:43

钉钉群直播【Koalas 介绍】

直播主题: 【Koalas 介绍】 时间: 7月3日 19:00-20:00 分享嘉宾: 王道远(健身):阿里云EMR技术专家,Apache Spark活跃贡献者,主要关注大数据计算优化相关工作。 内容介绍: Koalas简介:Koalas是Spark社区推出的新项目,旨在为Spark提供与pandas完全兼容的接口,在降低pandas用户的学习和迁移成本的同时,充分利用Spark强大的分布式处理能力。本次分享介绍Koalas的基本用法和原理。 本文分享自微信公众号 - Apache Spa...

0
0
2020/06/06 07:50

Koalas:让 pandas 轻松切换 Apache Spark

原文链接: https://databricks.com/blog/2019/04/24/koalas-easy-transition-from-pandas-to-apache-spark.html 编译: 陈龙,花名龙人,阿里巴巴计算平台事业部EMR团队的技术专家,目前主要专注于EMR产品的管控系统研发工作。 4 月 24 日,Databricks 在 Spark + AI 峰会上开源了一个新产品 Koalas,它增强了 PySpark 的 DataFrame API,使其与 pandas 兼容。 Python 数据科学在过去几年中爆炸式增长, pandas 已成为生态系统...

0
0
2020/09/22 10:24

Spark 3.0-pandas支持及其与DataFrame相互转换

pandas是python用户广泛使用的数据分析库,Spark 3.0已经能较好滴支持pandas接口,从而弥补pandas不能跨机进行大数据处理的不足。pandas还能够与Spark原来的DataFrame相互转换,方便Spark和Python的库相互调用。 1、Koalas: pandas API on Apache Spark Koalas(https://koalas.readthedocs.io/en/latest/)项目使数据科学家在处理大数据时能够更有效率,通过在Spark的上层实现一套pandas DataFrame API。pandas 是python数据处...

0
0
2019/05/05 09:38

百亿级企业级 RPC 框架开源了!

今天给大家介绍给一款性能卓越的 RPC 开源框架,其作者就是我推荐每个 Java 程序员都应该看的[《Java 生态核心知识点整理》](http://www.ityouknow.com/java/2019/03/25/java-knowledge.html)的原作者张玉龙。 说实话我第一次看到这个资料的时候,就感觉作者是一位真正的技术爱好者,后来通过朋友介绍终于认识了他。交谈之中得知他在美团工作,最初和朋友一起整理这份资料的初衷是为了面试,估计每天需要面试太多的应聘者,这份...

0
21
发表了博客
2019/05/05 09:39

百亿级企业级 RPC 框架开源了!

今天给大家介绍给一款性能卓越的 RPC 开源框架,其作者就是我推荐每个 Java 程序员都应该看的《Java 生态核心知识点整理》的原作者张玉龙。 说实话我第一次看到这个资料的时候,就感觉作者是一位真正的技术爱好者,后来通过朋友介绍终于认识了他。交谈之中得知他在美团工作,最初和朋友一起整理这份资料的初衷是为了面试,估计每天需要面试太多的应聘者,这份资料成了助手。强烈建议没有看这份资料的同学学习下,作为 Java 生态...

0
0
发表了博客
2020/06/29 09:56

SPARK + AI SUMMIT 2020 中文精华版线上峰会—7月4日上午议题

就在本周六、日 SPARK + AI SUMMIT 2020 中文精华版线上峰会,在北美结束第一时间“闪电般快速”为诸位奉上一场技术盛筵。本次活动由阿里云开发者社区牵头,联合十四位来自北京、上海、杭州、硅谷的PMC和意见领袖,一一还原英文现场的经典分享。 除 Databricks、Facebook、阿里巴巴、Intel 、领英等一线厂商的经典应用场景外,还有Ray、SQL、Structured Streaming、 MLflow、Koalas、K8s、Delta lake、Photon等新奇议题及社区生...

0
0
2019/04/30 12:36

Spark&AI Summit 2019

作者 | Marc-Olivier Arsenault 来源 | Medium 编辑 | 代码医生团队 上周举办了最新一期的Spark大会以下是会议不同方面的细分。 重大新闻 Databricks,会议的组织者和Spark的主要贡献者宣布了几个项目: Koalas 他们宣布了一个名为Koalas的新项目,这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新...

0
0
发表了博客
2019/04/07 13:10

JAVA RPC (六) 之thrift反序列化RPC消息体

我们来看一下服务端的简单实现,直接上thrift代码,很直观的来看一看thrift的server到底干了些什么 1 public boolean process(TProtocol in, TProtocol out) throws TException { 2 TMessage msg = in.readMessageBegin(); 3 ProcessFunction fn = (ProcessFunction)this.processMap.get(msg.name); 4 if (fn == null) { 5 TProtocolUtil.skip(in, (byte)12); 6 i...

0
0
发表了博客
2019/11/15 16:54

JAVA RPC (十) nio服务端解析

源码地址:https://gitee.com/a1234567891/koalas-rpc 企业生产级百亿日PV高可用可拓展的RPC框架。理论上并发数量接近服务器带宽,客户端采用thrift协议,服务端支持netty和thrift的TThreadedSelectorServer半同步半异步线程模型,支持动态扩容,服务上下线,权重动态,可用性配置,页面流量统计,支持trace跟踪等,天然接入cat支持数据大盘展示等,持续为个人以及中小型公司提供可靠的RPC框架技术方案 ServerSocketChannel简单...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
暂无内容
0 评论
6 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部