使用 Python 编写 MapReduce 作业 mrjob

未知
Python
跨平台
2013-07-25
红薯

mrjob 可以让用 Python 2.5+ 来编写 MapReduce 作业,并在多个不同平台上运行,你可以:

  • 使用纯 Python 编写多步的 MapReduce 作业
  • 在本机上进行测试
  • 在 Hadoop 集群上运行
  • 使用 Amazon Elastic MapReduce (EMR) 在云上运行

pip 的安装方法:pip install mrjob

示例代码:

from mrjob.job import MRJob


class MRWordCounter(MRJob):

    def mapper(self, key, line):
        for word in line.split():
            yield word, 1

    def reducer(self, word, occurrences):
        yield word, sum(occurrences)


if __name__ == '__main__':
    MRWordCounter.run()
加载中

评论(0)

暂无评论

暂无资讯

暂无问答

mrjob报语法错误

在公司采用mrjob模块编写MR,mrjob安装好后,执行相应的mr;程序报File "mr_job.py",line 1 in module for k,v in unfiltered_jobconf.items() if v is not None ^ syntaxError:invalid syntax...

2018/06/01 15:25
15
0
mrjob报SyntaxError:invalid syntax

在公司采用mrjob模块编写MR,mrjob安装好后,执行相应的mr;程序报File "mr_job.py",line 1 in module for k,v in unfiltered_jobconf.items() if v is not None ^ syntaxError:invalid syntax...

2018/11/14 15:50
4
0
mrjob运行-r hadoop模式中的bug修复

问题描述: /bin/sh:run_prestart: line 1:syntax error:unexpected end of file 解决方案: 在MRJob的配置文件中添加如下信息vim /etc/mrjob.conf runners: hadoop: setup: - 'set -e' sh_bin...

2018/11/06 15:24
13
0
getConf 与 new Configuration

#getConf 所有的配置都通过命令的形式,此种情况下支持-files ```shell sudo -uwirelessdev hadoop jar \ /home/q/script/mods/mrjob/mods-1.0-SNAPSHOT-jar-with-dependencies.jar \ -files ...

2016/07/15 20:01
36
0
一个简单的使用Quartz和Oozie调度作业给大数据计算平台执行

一,介绍 Oozie是一个基于Hadoop的工作流调度器,它可以通过Oozie Client 以编程的形式提交不同类型的作业,如MapReduce作业和Spark作业给底层的计算平台(如 Cloudera Hadoop)执行。 Quartz...

2016/09/22 22:15
36
0
Hive运维 — hive-site文件

QQ:529815144 || QQ群:248087140

2015/11/18 20:53
283
0
Python 大数据思维导图

Python for big data 1 Basic stack 1.1 numpy 1.2 scipy 1.3 pandas 1.3.1 "Python for Data Analysis" by Wes McKinney 1.4 scikits image 1.5 scikits learn 1.6 scikits statsmodels 1.7...

2013/06/14 12:47
536
1

没有更多内容

加载失败,请刷新页面

返回顶部
顶部