Flume+Kafka+storm流式计算——文件分组

诺诺 发布于 2016/06/20 14:15
阅读 525
收藏 1

【Gopher China万字分享】华为云的Go语言云原生实战经验!>>>

如题,我用Flume+Kafka监控一个文件夹下的小文件输入,把各个数据流传输到storm集群进行数据计算。

由于每个小文件中内容有业务计算逻辑,所以我在flume传输到kafka时,修改了Kafkasink代码,让其传输过程中带着文件名称,也就是{"filename":"09.t","body":"test"}格式。在storm处理时按照filename进行分组,可是目前不知道每个小文件传入什么时候结束,各位大侠有没有思路?

加载中
OSCHINA
登录后可查看更多优质内容
返回顶部
顶部