Python 打包器 PyCascading

Apache
Python
跨平台
Twitter
2015-05-19
大胖森

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。

PyCascading 是Cascading 的 Python 打包器(wrapper)。可使用它控制来自 Python 上完整的数据处理流程。

  • 管道是由 Python Operators 模块建造的

  • 用户定义的功能都写在 Python 上

  • 能够传递任意上下文到用户定义的功能上

  • 临时结果的缓存会导致管道更快的重播(faster replay)

  • 使用 Jython 2.5.2 将有利于 Java 和 Python库的集成

PyCascading 能够用于两种模式中:在本地的 Hadoop 或 远程 Hadoop 部署。

使用 PyCascading 所需要的环境是:

运行条件:

  • Hadoop 在目标服务器上安装和设置

  • SSH 访问远程服务器

  • 如果在本地测试,则需要合理的调用 JVM

加载中

评论(0)

暂无评论

暂无资讯

暂无问答

推荐!国外程序员整理的机器学习资源大全

推荐!国外程序员整理的机器学习资源大全 本列表选编了一些机器学习领域牛B的框架、库以及软件(按编程语言排序)。 C++ 计算机视觉 CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器...

2014/12/09 15:01
199
0
国外程序员整理的机器学习资源大全

国外程序员整理的机器学习资源大全

2015/08/07 17:26
354
1
整理的机器学习资源大全

本文汇编了一些机器学习领域的框架、库以及软件(按编程语言排序)。 伯乐在线已在 GitHub 上发起「机器学习资源大全中文版」的整理。欢迎扩散、欢迎加入。 https://github.com/jobbole/awe...

2016/11/24 17:31
38
0
史上最全的机器学习资料(下)

摘要: 机器学习牵涉的编程语言十分之广,包括了MATLAB、Python、Clojure、Ruby等等。为了让开发者更加广泛、深入地了解机器学习,云栖社区组织翻译了GitHub Awesome Machine Learning 资源,...

2016/08/30 19:19
353
0

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部