分布式计算框架 DPark

BSD
Python
跨平台
豆瓣
2013-06-06
欢哥

DPark 是 Spark 的 Python 克隆,是一个Python实现的分布式计算框架,可以非常方便地实现大规模数据处理和迭代计算。 DPark 由豆瓣实现,目前豆瓣内部的绝大多数数据分析都使用DPark 完成,正日趋完善。

示例代码:

 import dpark
 file = dpark.textFile("/tmp/words.txt")
 words = file.flatMap(lambda x:x.split()).map(lambda x:(x,1))
 wc = words.reduceByKey(lambda x,y:x+y).collectAsMap()
 print wc

该代码可以在本地和 Mesos 集群上运行:

$ python wc.py
$ python wc.py -m process
$ python wc.py -m host[:port]
的码云指数为
超过 的项目
加载中

评论(1)

红薯
红薯
来自豆瓣的分布式计算框架 DPark

暂无资讯

1
回答
DPark安装不成功

安装了Cython重新编译,依旧报错,求赐教 dpark\portable_hash.c(311) : fatal error C1083: Cannot...

2015/08/04 22:00

没有更多内容

加载失败,请刷新页面

没有更多内容

Python几种主流框架

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。 Django: Python Web应用开发框架 Django 应该是最出名的Python框架...

2017/11/06 19:34
79
0
python常用框架

Django: Python Web应用开发框架 Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用起ORM,做简单的...

2018/07/02 14:57
8
0
豆瓣的基础架构

2014-04-10 InfoQ 本文根据InfoQ中文站对豆瓣洪强宁(@hongqn)的沟通交流整理而成。洪强宁介绍了豆瓣的架构和组件,并分享了豆瓣基础平台部的一些团队经验。文中截图来自洪强宁在2013年CTO...

2014/04/13 08:25
47
0
从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个

从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。 Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响...

2018/11/23 15:00
23
0
10款GitHub上最火爆的国产开源项目

衡量一个开源产品好不好,看看产品在 GitHub 的 Star 数量就知道了。由此可见,GitHub 已经沦落为开源产品的“大众点评”了。一个开源产品希望快速的被开发者知道、快速的获取反馈,放到 Gi...

2015/03/06 10:07
703
1
实现了BSP模型的计算框架

实现了BSP模型的计算框架 1.Pregel Google的大规模图计算框架,首次提出了将BSP模型应用于图计算,具体请看Pregel——大规模图处理系统 ,不过至今未开源。 2.Apache Giraph ASF社区的Incub...

2014/11/16 19:15
304
1
【整理】国内一些大公司的开源项目

【整理】国内一些大公司的开源项目

2015/04/16 12:01
47
0
【整理】国内一些大公司的开源项目

昨天看阿里的MetaQ文档,感觉对于消息系统的理解,比起大多数文章都要出色得多了,有些分析也非常的有实用性。估计还有很多优秀的项目没被发掘,于是就调研了一下,国内一些大公司的开源项目...

2013/08/25 09:24
14K
5

没有更多内容

加载失败,请刷新页面

返回顶部
顶部