一周前我们发布并开源了Cloudbreak--首个基于hadoop的docker service API。本文将为您展示其技术细节和架构组成。 Cloudbreak 建立于Apache Ambari, Docker containers, Serf 和 dnsmasq ...
几周前我们发布了一个Apache Hadoop 2.3的Docker镜像——在非常短的时间内它已经成为了Dcocker登记册 最流行的Docker镜像. 随着Hadoop2.3Docker镜像 的成功,用户在Hadoop发布周期内给予了反...
在上篇文章中你已经看到了在你的devbox创建一个单点Hadoop 集群是多么简单。 现在我们提高门槛,在Docker上创建一个多点hadoop集群。在开始前,确保你有最新的Ambari镜像: docker pull s...
随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格...
构建 MapReduce Tar包 你可以获取 MapReduce 的tar包,也可以从源码中构建这个tar包 $ mvn clean install -DskipTests $ cd hadoop-mapreduce-project $ mvn clean install assembly:assembl...
为你的业务使用大数据技术是一个非常有吸引力的事情,现在Apache Hadoop使得它更加吸引人了。 Hadoop是一个大规模可伸缩的数据存储平台,被用作许多大数据项目的基础。 Hadoop很强大,但是它...
今天想帮助别人吗? 根据用户之前的回答历史,我们可以把Stack Exchange的新问题推荐给一个能够回答的用户,这与亚马逊通过你之前的购买记录给你提供推荐很相似。不知道Stack Exchange是做什么...
硬件环境 通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果集群...
Map Reduce是包含两个过程:Map过程和Reduce过程。每一个过程都包含键值对作为输入,程序员可以选择键和值的类型。 Map和Reduce的数据流是这样的: Input ==> Map ==> Mapper Output ==> So...
作为我之前博客的延续,在这篇博客中,我将探讨如何使用 Mahout 和 Hadoop 实现一个 推荐引擎 第一部分 介绍 MapReduce 和 为什么为了利用并行计算的优势,一些算法需要而重写 第二部分 我会...
共生矩阵可以被描述为对一个事件的跟踪,并且给出了关于其他可能发生的事件的某个时间或者空间上的窗口。在这篇文章中,“事件”是指在文本中发现的个别单词,我们将追踪出现在“窗口”内的其...
先快速说明一下: Hadoop并不是什么数据库,也不是程序库,甚至不是一个独立产品。实际上,Hadoop是一些独立模块的组合,包括一个分布式文件系统HDFS、一个分布式数据库HBase、一个大型分布式...
Apache Hadoop是一个用来构建大规模共享存储和计算设施的软件。Hadoop集群已经应用在多种研究和开发项目中,并且,Yahoo!, EBay, Facebook, LinkedIn, Twitter等公司,越来越多的的把它应用在...
最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache Hadoop的生态系统大部分都是...
序言 数据库和文件中储存的数据量每天都在增长,因此我们需要构建能够储存大量数据(“大数据”),并且廉价、可维护、可伸缩的环境。传统的关系数据库(RDBMS)系统在当前的需求下成本过高并...
没有更多内容
加载失败,请刷新页面
没有更多内容