开源中国

我们不支持 IE 10 及以下版本浏览器

It appears you’re using an unsupported browser

为了获得更好的浏览体验,我们强烈建议您使用较新版本的 Chrome、 Firefox、 Safari 等,或者升级到最新版本的IE浏览器。 如果您使用的是 IE 11 或以上版本,请关闭“兼容性视图”。
PyCascading首页、文档和下载 - Python 打包器 - 开源中国社区
全部项目分类
我要评价
Apache
Python
跨平台
Twitter
分享
收藏
收录时间:2015-05-19
PyCascading 详细介绍

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。

PyCascading 是Cascading 的 Python 打包器(wrapper)。可使用它控制来自 Python 上完整的数据处理流程。

  • 管道是由 Python Operators 模块建造的

  • 用户定义的功能都写在 Python 上

  • 能够传递任意上下文到用户定义的功能上

  • 临时结果的缓存会导致管道更快的重播(faster replay)

  • 使用 Jython 2.5.2 将有利于 Java 和 Python库的集成

PyCascading 能够用于两种模式中:在本地的 Hadoop 或 远程 Hadoop 部署。

使用 PyCascading 所需要的环境是:

运行条件:

  • Hadoop 在目标服务器上安装和设置

  • SSH 访问远程服务器

  • 如果在本地测试,则需要合理的调用 JVM


大家对 PyCascading 的评论 (全部 0 条评论)
{{repayCom.userName}}
顶部