MongoDB Hadoop Connector

Apache
Scala 查看源码»
跨平台
2012-04-11
红薯

Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数 据集就可以快速被处理。

Mongo-Hadoop支持PigHive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

  • Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
  • 每个分割部分被分配到Hadoop集群中的一个节点
  • 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
  • Hadoop合并结果,并输出到MongoDB或BSON

介绍内容来自 iteye

加载中

评论(0)

暂无评论

Mongo-Hadoop 1.1 发布,利用 Hadoop 并行处理 MongoDB 中的大数据

Mongo-Hadoop 1.1 发布了,Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据...

2013/08/10 08:04

没有更多内容

加载失败,请刷新页面

没有更多内容

暂无问答

在mongodb上使用Spark

spark构建在hadoop之上,提供了比mapreduce更多的操作,支持在流式数据上进行迭代计算。 因为spark构建在hadoop和hdfs上,所以它兼容任何hdfs数据源,mongo-hadoop connector连接hadoop和mon...

2014/05/16 10:31
1K
0
Spark小试牛刀

随着项目的运营,收集了很多的用户数据。最近业务上想做些社交图谱相关的产品,但因为数据很多、很杂,传统的数据库查询已经满足不了业务的需求。 试着用`Spark`来做,权当练练手了。使用`sb...

2015/09/23 00:51
254
0
Hadoop 2.5.1学习笔记5: mongo-hadoop connector的使用范例

package com.dewmobile.task; import java.io.IOException; import java.util.Iterator; import java.util.Random; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop...

2014/11/13 12:35
86
0
关于Mongo与SQL

本文介绍了从SQL数据库迁移到MongoDB的可行性以及一些替代方案

2015/01/09 10:39
130
0
大数据实验室(大数据基础培训)——概要

本工程为大数据培训的指导教程,包含了培训实践各个环节的说明及相关代码。

2016/05/06 08:22
135
1
SparkMongoDBIntegration

package com.pflm.test import org.apache.hadoop.conf.Configuration import org.apache.spark.{ SparkContext, SparkConf } import com.mongodb.hadoop.MongoOutputFormat import org.apac...

2016/12/24 17:34
78
0
MongoDB之Hadoop驱动介绍

MongoDB之Hadoop驱动介绍 ------------------------ 1. 一些概念 Hadoop 是一套Apache开源的分布式计算框架,其中包括了分布式文件系统DFS与分布式计算模型MapReduce,而MongoDB是一个面向文...

2011/09/02 18:05
828
0
saveAsNewHadoopAPI 乱码

saveAsNewHadoopAPI出现乱码

2016/06/14 16:01
84
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部