0
回答
Flume+Kafka+storm流式计算——文件分组
注册华为云得mate10,2.9折抢先购!>>>   

如题,我用Flume+Kafka监控一个文件夹下的小文件输入,把各个数据流传输到storm集群进行数据计算。

由于每个小文件中内容有业务计算逻辑,所以我在flume传输到kafka时,修改了Kafkasink代码,让其传输过程中带着文件名称,也就是{"filename":"09.t","body":"test"}格式。在storm处理时按照filename进行分组,可是目前不知道每个小文件传入什么时候结束,各位大侠有没有思路?

举报
诺诺
发帖于2年前 0回/409阅
顶部