MapReduce 正在参加 2021 年度 OSC 中国开源项目评选,请投票支持!
MapReduce 在 2021 年度 OSC 中国开源项目评选 中已获得 {{ projectVoteCount }} 票,请投票支持!
2021 年度 OSC 中国开源项目评选 正在火热进行中,快来投票支持你喜欢的开源项目!
2021 年度 OSC 中国开源项目评选 >>> 中场回顾
MapReduce 获得 2021 年度 OSC 中国开源项目评选「最佳人气项目」 !
授权协议 未知
开发语言
操作系统 未知
软件类型 开源软件
所属分类 大数据其他
开源组织
地区 不详
投 递 者 红薯
适用人群 未知
收录时间 2010-09-06

软件简介

MapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言借来的,还有从矢量编程语言借来的特性。

当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

HadoopApache软件基金会开放源码项目,提供与MapReduce档案系统类似的功能。

展开阅读全文

评论 (0)

加载中
更多评论
发表了资讯
2014/06/27 00:00

谷歌弃用 MapReduce, 推出替代品 Cloud Dataflow

谷歌在周三发布了 Cloud Dataflow,一个用来既可以使用流式处理又可以使用批处理模式的大数据分析服务。 这个消息是在旧金山举行的谷歌 I/O 大会上公布的。它帮助完成了搜索巨头的云计算格局,为了对抗亚马逊的网络服务而一直在添加新功能。 谷歌高级副总裁乌尔斯·霍泽尔简要介绍了 Dataflow,并演示了一个围绕处理推特上的数据和世界杯人气的 demo。Dataflow 是介绍的一系列云服务里的头条。 霍泽尔说谷歌内部已经使用 Datafl...

19
47
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表了博客
2019/07/11 15:24

【MapReduce】三、MapReduce运行机制

  通过前面对map端、reduce端以及整个shuffle端工作流程的介绍,我们已经了解了MapReduce的并行运算模型,基本可以使用MapReduce进行编程,那么MapRecude究竟是如何执行的,从map到shuffle,再到reduce的这一套完整的计算过程是如何调度的呢?这就是MapReduce的作业运行机制。   对于一个MapReduce作业,有两种方法来提交使其运行,一个是Job对象的waitForCompletion()方法,用于提交以前没有提交过的作业,并等待它的完成;...

0
0
发表了博客
2014/07/25 16:37

MapReduce

MapReduce and why MapReduce is a programming model for data processing The power of MapReduce lies in its ability to scale to 100s or 1000s of computers, each with several processor cores MapReduce is designed to efficiently process large volumes of data by connecting many commodity computers together to work in parallel A theoretical 1000-CPU machine would cost a very large amount of money, fa...

0
4
发表了博客
2019/06/20 23:17

Mapreduce

1 环境搭建 mapreduce作为分布式计算模块,yarn作为作业调度和资源管理模块,区别在于: mapreduce是一种编程模型,可以理解为一个jar包 yarn相当于启动运行mapreduce作业容器的进程 老版本中的mapreduce和yarn是整合在一起的 mapreduce配置可以在提交作业时指定,而yarn配置必须要在配置文件修改生效。 1.1 配置yarn-env.sh [centos@hadoop01 ~]$ tail -1 /soft/hadoop-2.7.3/etc/hadoop/yarn-env.sh export JAVA_HOME=/soft/...

0
0
发表了博客
2013/07/14 00:17

MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在 分布式系统上。 当前的 软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键...

0
15
发表了博客
2013/08/27 03:45

MapReduce

写在前面的话:看了N多MapReduce方面的理论知识,一直想写写自己对MapReduce的理解。 ##MapReduce 编程模型## ``` map:(K1, V1) -> list(K2, V2) reduce: (k2, list(V2)) -> list(K2, V2) ``` 简而言之就是 ___ 输入-> Mappers -> 中间数据 -> Reducer -> 输出 ___ 这样的一个过程,把输入``(key, value)``经过map和reduce函数转换成另一个或一批``(key, value)``对输出即可。 ###Mapper### Map阶段,MapReduce对任务输入数据分...

0
4
发表了博客
2014/06/05 16:14

MapReduce

MapReduce 是大规模数据(TB 级)计算的利器,Map 和Reduce 是它的主要思想,来源于函数式编程语言 Map 负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map 和reduce 两个接口,即可完成TB 级数据的计算,常见的应用包括:日志分析和数据挖掘等数据分析应用。另外,还可用于科学数据计算,如圆周率PI 的计算等。

0
0
发表了博客
2014/09/02 16:23

MapReduce

下面这段话是网上其他人用最简短的语言解释MapReduce: We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes. 我们要数图书馆中的所有书。你数1号书架,我数2号书架。这就是“Map”。我们人越多,数书就更快。 Now we get together and add our individual counts. That’s reduce. 现在我们到一起,把所有人的统计数加在一...

0
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
发表于开发技能专区
2020/03/06 14:13

Can't get Master Kerberos principal for use as renewer     a

n" java.io.IOException:Can't get Master Kerberos principal for use as renewer at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:116) at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodesInternal(TokenCache.java:100) at org.apache.hadoop.mapreduce.security.TokenCache.obtainTokensForNamenodes(TokenCache.java:80) at org.apache...

1
0
发表于DevOps专区
2018/09/03 16:48

hive任务转为mapreduce任务后,运行失败了,mr自动kill掉了

配置:centos7.3 ,1核8G内存,hadoop版本2.7.3,hive版本0.12 -----------------------------分割线--------------- 具体代码: sql = "select count(1) from " + tableName;     System.out.println("Running:" + sql);     res = stmt.executeQuery(sql);     System.out.println("执行“regular hive query”运行结果:");     while (res.next()) {       System.out.println("count ------>" + res.getString(1));     } 反馈为...

2
0
发表了问答
2015/05/22 07:19

java程序怎么向远程的hadoop提交mapreduce任务呢

在网上查了很多资料,都没有说的很清楚的。 我知道在namenode上通过命令 hadoop jar 的方式来提交mapreduce任务,但是在正真程序执行的时候不会是用手工去执行hadoop命令吧! 最近查了很多资料,竟然没有这方面的资料,我就想知道正真项目中是怎么允许一个mapreduce的。

7
0
发表了问答
2017/09/07 16:03

相比于hive, 现在哪些场景更多使用mapreduce编程呢?

相比于Hive,哪些场景下必须使用mr编程呢? Hive现在功能越来越完善,以后会不会替代掉mr?

1
0
2017/09/14 15:26

mapreduce 怎么读取 hdfs 上的zip包文件

mapreduce 怎么读取 hdfs 上的zip包文件

2
0
发表了问答
2017/07/13 21:04

Hive UDF函数报错UDFArgumentException: The UDF implementation class 'xxxxx' is not present inthe class path

这两天遇到了一个比较诡异的问题,就是编辑Hive的UDF函数,并提交需要执行MapReduce的SQL后,提示报错 org.apache.hadoop.hive.ql.exec.UDFArgumentException: The UDF implementation class 'xxxxx' is not present inthe class path 具体代码如下 ``` package com.mzm.transformer.hive; import com.mzm.common.GlobalConstants; import com.mzm.utils.JdbcManager; import org.apache.commons.lang.StringUtils; import org....

1
0
发表了问答
2017/06/14 08:42

写MapReduce把HDFS的数据导入Hbase,打包后程序怎么执行?

Hbase是1.03版本,Hadoop是2.6版本。这两个版本包含的jar包巨多,是要把Hbase的包拷贝到Hadoop里,还是Hadoop里的包拷贝到Hbase里?拷贝哪些包放哪个位置?

1
0
2014/11/20 15:42

求救:MapReduce程序没输出日志

1. 服务器上:hadoop-2.3.0-cdh5.1.3 、centos 本地eclipse远程连接的hadoop,运行mapreduce程序成功,但是控制台没有日志(就是map跑了X%,reduce跑了X%这样的日志木有)。我看到别人的都是这样的,华丽丽的一大堆日志啊: 。。。。。 而我的却是这样的: 我的控制台就这样无疾而终了,它就是这么干净利落! 我表示不能接受啊,要不是我跑到hdfs下看了一下结果,我都不知道它这是肿么了。 为神马我和别人的差距就这么大,就输出...

9
0
发表了问答
2017/04/10 16:56

怎么才能学好hadoop,我给6点建议

从08年的云计算到现在的大数据,还只会搭建hadoop环境的小朋友,我就不说什么了。没有接触过hadoop的同学,也不必迷茫。 现在各大公司的要求,普遍需要2-3年的经验,不过只要你技术过硬,这也都是浮云。如果你只会搭建环境,我想机会也不大吧? 大数据是一个概念,hadoop是来实现这个概念的工具、技术,它们之间并没有绝对的联系。Hadoop作为一代分布式系统的基础,特别是第二代Hadoop YARN推出以后,这个位置更加牢固。目前在市...

8
1
发表了问答
2017/03/23 16:18

想学好hadoop大数据,你要知道这6点

从08年的云计算到现在的大数据,还只会搭建hadoop环境的小朋友,我就不说什么了。没有接触过hadoop的同学,也不必迷茫。 现在各大公司的要求,普遍需要2-3年的经验,不过只要你技术过硬,这也都是浮云。如果你只会搭建环境,我想机会也不大吧? 大数据是一个概念,hadoop是来实现这个概念的工具、技术,它们之间并没有绝对的联系。Hadoop作为一代分布式系统的基础,特别是第二代Hadoop YARN推出以后,这个位置更加牢固。目前在市...

2
3
发表了问答
2015/12/02 19:22

用Sqoop,hdfs导入都mysql时候执行MR时候报错了

sqoop export --connect jdbc:mysql://crxy2:3306/test --username root --password 19911130 --table info --export-dir sqoop_export Warning: /software/sqoop-1.4.6.alpha/../hbase does not exist! HBase imports will fail. Please set $HBASE_HOME to the root of your HBase installation. Warning: /software/sqoop-1.4.6.alpha/../hcatalog does not exist! HCatalog jobs will fail. Please set $HCAT_HOME to the r...

5
0
发表了问答
2017/02/14 08:57

关于MapReduce输入输出的问题

使用MapReduce对Hbase进行读写,其中map方法一次只能读取一行记录,而且貌似也只能输出一行记录,然而我需要根据这一行记录做一些处理,然后输出多行,请问MapReduce能做到么?该怎么做呢?

1
0
发表了问答
2016/10/27 19:20

hadoop2.6.0 CDH环境5.7.2 任务的问题

只同时运行了8个我想同时运行 多个怎么修改参数啊? 我改了好些参数都没有反应

2
0
2015/12/30 22:55

mrjob 在hdfs上跑

是这样的,我照着网上的教程写好了一个用mrjob模块的mapreduce的python程序,名字叫word.py 在我的hdfs上 /test/bible bible是一个文档,在本地测试的时候扔到word.py里面是可以被计算出单词术的。 我想请问一下,我怎么让这个word.py运行在hadoop的mapreduce上,我看到网页上写的是 python word.py hadoop -r <input > output 请各位大神教我一下。。。要求是输入文件和输出文件都在hdfs上进行。。。条件上面已经给出了。。。谢...

2
0
发表了问答
2016/09/26 10:43

Hadoop怎么处理图像数据

我想在Hadoop集群上处理一些图像(例如TIFF、bmp等等),我用的Hadoop2.7.2在Ubuntu14.04系统上。 第一:处理图像的输入输出类怎么编写? 第二:图像一般是怎么保存在HDFS里面? 另外,还有一个小问题:C/C++不能用Hadoop处理图像数据吗?如果能,该怎么处理? 谢谢!

1
0
发表了问答
2016/08/29 21:54

java操作mapreduce出现权限问题

2016-08-29 21:41:30,542 WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(62)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2016-08-29 21:41:31,943 INFO [main] client.RMProxy (RMProxy.java:createRMProxy(98)) - Connecting to ResourceManager at james/192.168.233.136:8032 Exception in thread "main" org.apache.hadoop.securit...

2
0
发表了问答
2016/05/31 18:20

mapreduce小文件合并问题(spark)

3万个小文件,70G的数据,内存可用10G,现在需要把这些小文件合并,但是内存放不下,能否实现读一些文件,合并一个文件,用一个MR实现

1
0
发表了问答
2011/05/06 08:02

MapReduce 编程模型在日志分析方面的应用

简介 日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。 本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释 MapReduce 模型的对应实现,涵盖在 MapReduce 编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机制等。文章分三部分展开:首先介绍 MapReduce ...

4
14
发表了问答
2013/03/25 14:20

在用MapReduce操作HBase表时,表内出现了乱码

小弟我做个简单的搜索引擎,用HBase数据库存放网页内容,但是当把网页内容提取出来进行分析时总是没有输出,因此我就直接把数据不分析直接输出到另外一个表中,倒是有输出了,因此我的分析算法没问题,但是输出很简单,我也不知道是什么意思!希望各位大神指点指点,问题已经贴出来了,表中对应的值应该是网页HTML的内容,但是现实很让我崩溃啊

1
0
发表了问答
2016/01/19 09:35

运行MapReduce程序时报错,请大仙指教

运行MapReduce程序时报错: TaskID:attempt_20150111011 stauts:failed, connot be cast to org.apache.hadoop.io.IntWritable

2
0
没有更多内容
加载失败,请刷新页面
点击加载更多
加载中
下一页
0 评论
70 收藏
分享
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部