Hadoop
Hadoop 是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一...
加载中
Docker 将 Hadoop 带到云端

一周前我们发布并开源了Cloudbreak--首个基于hadoop的docker service API。本文将为您展示其技术细节和架构组成。 Cloudbreak 建立于Apache Ambari, Docker containers, Serf 和 dnsmasq ...

发布于 2014/07/28 10:48
在 Docker 上运行 Apache Hadoop 2.4.0

几周前我们发布了一个Apache Hadoop 2.3的Docker镜像——在非常短的时间内它已经成为了Dcocker登记册 最流行的Docker镜像. 随着Hadoop2.3Docker镜像 的成功,用户在Hadoop发布周期内给予了反...

发布于 2014/06/27 06:32
在 Docker 上建立多节点的 Hadoop 集群

在上篇文章中你已经看到了在你的devbox创建一个单点Hadoop 集群是多么简单。 现在我们提高门槛,在Docker上创建一个多点hadoop集群。在开始前,确保你有最新的Ambari镜像: docker pull s...

发布于 2014/06/24 07:00
为你的 Hadoop 集群选择合适的硬件

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。 尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格...

发布于 2013/09/02 10:39
安装一个单节点的 Hadoop 分布式系统

构建 MapReduce Tar包 你可以获取 MapReduce 的tar包,也可以从源码中构建这个tar包 $ mvn clean install -DskipTests $ cd hadoop-mapreduce-project $ mvn clean install assembly:assembl...

发布于 2013/07/23 15:01
你不需要 Hadoop 做数据分析的 10 个理由 —— 使用之前必须测试其他替代品

为你的业务使用大数据技术是一个非常有吸引力的事情,现在Apache Hadoop使得它更加吸引人了。 Hadoop是一个大规模可伸缩的数据存储平台,被用作许多大数据项目的基础。 Hadoop很强大,但是它...

发布于 2013/07/19 07:27
使用 Azure、Hadoop 和 Mahout 构建一个推荐系统

今天想帮助别人吗? 根据用户之前的回答历史,我们可以把Stack Exchange的新问题推荐给一个能够回答的用户,这与亚马逊通过你之前的购买记录给你提供推荐很相似。不知道Stack Exchange是做什么...

发布于 2013/07/15 08:56
HPCC 和 Hadoop 的详细比较

硬件环境 通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果集群...

发布于 2013/07/11 06:35
在 Hadoop 上编写 MapReduce 程序 —— 上下文

Map Reduce是包含两个过程:Map过程和Reduce过程。每一个过程都包含键值对作为输入,程序员可以选择键和值的类型。 Map和Reduce的数据流是这样的: Input ==> Map ==> Mapper Output ==> So...

发布于 2013/04/27 06:56
使用 Hadoop 和 Mahout 实现推荐引擎

作为我之前博客的延续,在这篇博客中,我将探讨如何使用 Mahout 和 Hadoop 实现一个 推荐引擎 第一部分 介绍 MapReduce 和 为什么为了利用并行计算的优势,一些算法需要而重写 第二部分 我会...

发布于 2013/02/14 10:25
用 Hadoop 实现共生矩阵计算

共生矩阵可以被描述为对一个事件的跟踪,并且给出了关于其他可能发生的事件的某个时间或者空间上的窗口。在这篇文章中,“事件”是指在文本中发现的个别单词,我们将追踪出现在“窗口”内的其...

发布于 2013/01/25 14:30
介绍 Apache Hadoop —— HDFS 和 MapReduce

先快速说明一下: Hadoop并不是什么数据库,也不是程序库,甚至不是一个独立产品。实际上,Hadoop是一些独立模块的组合,包括一个分布式文件系统HDFS、一个分布式数据库HBase、一个大型分布式...

发布于 2013/01/21 07:02
Apache Hadoop 的最佳实践和反模式

Apache Hadoop是一个用来构建大规模共享存储和计算设施的软件。Hadoop集群已经应用在多种研究和开发项目中,并且,Yahoo!, EBay, Facebook, LinkedIn, Twitter等公司,越来越多的的把它应用在...

发布于 2013/01/12 11:37
Hadoop的Python框架指南

最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache Hadoop的生态系统大部分都是...

发布于 2013/01/11 14:08
如何构建最佳的 Hadoop 集群

序言 数据库和文件中储存的数据量每天都在增长,因此我们需要构建能够储存大量数据(“大数据”),并且廉价、可维护、可伸缩的环境。传统的关系数据库(RDBMS)系统在当前的需求下成本过高并...

发布于 2013/01/04 23:22

没有更多内容

加载失败,请刷新页面

没有更多内容

返回顶部
顶部