Apache Spark Pandas API Koalas

Apache
Python
跨平台
2019-05-05
Leo進城務工

通过扩充Apache Spark的Python DataFrame API以与Pandas兼容,Koalas项目在与大数据交互时提高了数据科学家的工作效率。

Pandas是Python中事实上的标准(单节点)数据帧实现,而Spark是大数据处理的事实标准。有了这个包,数据科学家可以:

1)如果已经熟悉Pandas,那么使用Spark可以立即提高效率,没有学习曲线。

2)单个代码库就可以用于Pandas(测试,较小的数据集)和Spark(分布式数据集)。

的码云指数为
超过 的项目
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

百亿级企业级 RPC 框架开源了!

今天给大家介绍给一款性能卓越的 RPC 开源框架,其作者就是我推荐每个 Java 程序员都应该看的《Java 生态核心知识点整理》的原作者张玉龙。 说实话我第一次看到这个资料的时候,就感觉作者是...

05/05 09:38
1K
0
JAVA RPC 生产级高可用RPC框架使用分享

先放出链接,喜欢的给个star:https://gitee.com/a1234567891/koalas-rpc 一:项目介绍 koalas-RPC 个人作品,提供大家交流学习,有意见请私信,欢迎拍砖。客户端采用thrift协议,服务端支持...

08/20 11:10
4
0
漫谈分布式计算框架

如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 ...

06/06 12:57
20
0
漫谈分布式计算框架

如果问 mapreduce 和 spark 什么关系,或者说有什么共同属性,你可能会回答他们都是大数据处理引擎。如果问 spark 与 tensorflow 呢,就可能有点迷糊,这俩关注的领域不太一样啊。但是再问 ...

06/06 10:57
4
0
D2 日报 2019年4月9日

📰 新闻 ➡️ WeGame X 腾讯全球版游戏平台WeGame已推出,名为WeGame X。可以下载试用国际版,里面已有17个中国自主研发的游戏 www.wegamex.com.hk ➡️ cn.vuejs.org 讨论并征集关于 attr...

04/09 08:52
2
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部