数据收集系统 Chukwa

Apache
Java
跨平台
Apache
2011-09-25
红薯

什么是 Chukwa,简单的说它是一个数据收集系统,它可以将各种各样类型的数据收集成适合 Hadoop 处理的文件保存在 HDFS 中供 Hadoop 进行各种 MapReduce 操作。Chukwa 本身也提供了很多内置的功能,帮助我们进行数据的收集和整理。

为了更加简单直观的展示 Chukwa,我们先来看一个假设的场景。假设我们有一个规模很大 ( 牵扯到 Hadoop 的总是很大。。。。) 的网站,网站每天产生数量庞大的日志文件,要收集,分析这些日志文件可不是件容易的事情,读者可能会想了,做这种事情 Hadoop 挺合适的,很多大型网站都在用,那么问题来了,分散在各个节点的数据怎么收集,收集到的数据如果有重复数据怎么处理,如何与 Hadoop 集成。如果自己编写代码完成这个过程,一来需要花费不小的精力,二来不可避免的会引入 Bug。这里就是我们 Chukwa 发挥作用的时候了,Chukwa 是一个开源的软件,有很多聪明的开发者在贡献着自己的智慧。它可以帮助我们在各个节点实时监控日志文件的变化,增量的将文件内容写入 HDFS,同时还可以将数据去除重复,排序等,这时 Hadoop 从 HDFS 中拿到的文件已经是 SequenceFile 了。无需任何转换过程,中间繁杂的过程都由 Chukwa 帮我们完成了。是不是很省心呢。这里我们仅仅举了一个应用的例子,它还可以帮我们监控来自 Socket 的数据,甚至定时执行我们指定的命令获取输出数据,等等,具体的可以参看 Chukwa 官方文档。如果这些还不够,我们还可以自己定义自己的适配器来完成更加高级的功能。

加载中

评论(0)

暂无评论

暂无资讯

1
回答
有人用chukwa没?我们用chukwa来做业务数据的收集,但是越来越觉得不很靠谱

有人用chukwa没?我们用chukwa来做业务数据的收集,但是越来越觉得不很靠谱

2014/01/07 18:34

没有更多内容

加载失败,请刷新页面

没有更多内容

Chukwa配置及运行实例

Goal: Three nodes: as1, as2, as3: as1 will be the Collector Node,as the same it will provide HDFS storage service. as2 and as3 will be the Agent Nodes, they will collecting loc...

2013/01/06 20:37
1K
0
基于Chukwa Sequence File的MapReduce

关于Chukwa配置及运行实例,请参见: http://my.oschina.net/xiangchen/blog/100424 Chukwa将收集到的数据以Sink Files的形式写入到HDFS中,如果不做Archive和Demux操作的话,默认存储在hdf...

2013/01/15 17:53
343
0
Chukwa集成Hadoop如何处理IPC版本兼容问题

版本信息: hadoop-0.22.0 chukwa-incubating-0.5.0 在Chukwa的Collector启动过程中如下以下错误: INFO LocalToRemoteHdfsMover LocalToRemoteHdfsMover - remote fs name is hdfs://xx:120...

2013/01/06 16:24
3.4K
0
使用apache pig 处理chukwa收集的数据

公司使用chukwa收集每个服务器数据的,数据收集到的hdfs以后被写成sequencefile,想用pig处理这些数据,pig本身不支持这种数据结构的,查看chukwa源码发现,本身有带有pig脚本,是hicc用来做数...

2014/01/07 00:09
121
0
Greenplum Hadoop视频教程_Hadoop应用案例剖析

基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析 适合人群:高级 课时数量:96课时 用到技术:MapReduce、HDFS、Map-Reduce、Hive、Sqoop 涉及项目:Greenplum Hadoop大数...

2014/11/05 11:06
67
0
Hadoop应用案例视频教程6折 低达4.5折

Greenplum Hadoop应用案例视频教程 活动时间:12月11日~12日 活动规则:全场课程(品牌学习套餐除外)6折,VIP会员可享受折上折(例如:VIP5本身可以买课程7.5按照活动可享受低至4.5折),客...

2014/12/12 13:48
18
0
大数据系统数据采集产品的架构分析

超人学院,国内最大的大数据Hadoop培训机构.这篇博客主要为大家讲述大数据系统数据采集产品的架构分析。

2016/06/14 17:17
63
0
大数据系统数据采集产品的架构分析

任何完整的大数据平台,一般包括以下的几个过程: 数据采集 数据存储 数据处理 数据展现(可视化,报表和监控) 其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集...

2015/10/31 20:32
4.3K
0
Hadoop云计算实战

Hadoop云计算实战 《Hadoop云计算实战》全面介绍了云计算的基本概念、Google(谷歌)云计算的关键技术,以及Hadoop云计算的相关配套项目及其实战,包括Hadoop的HDFS、MapReduce、HBase、Hiv...

2015/05/29 16:58
74
0

没有更多内容

加载失败,请刷新页面

返回顶部
顶部