0
回答
Flume+Kafka+storm流式计算——文件分组
百度AI开发者大赛带你边学边开发,赢100万奖金,加群:418589053   

如题,我用Flume+Kafka监控一个文件夹下的小文件输入,把各个数据流传输到storm集群进行数据计算。

由于每个小文件中内容有业务计算逻辑,所以我在flume传输到kafka时,修改了Kafkasink代码,让其传输过程中带着文件名称,也就是{"filename":"09.t","body":"test"}格式。在storm处理时按照filename进行分组,可是目前不知道每个小文件传入什么时候结束,各位大侠有没有思路?

举报
诺诺
发帖于2年前 0回/420阅
顶部