flume文件一秒一个，能不能时间长一点

2025-03-28 01:26:11

推荐回答（1个）

回答1：

原始数据通过Agent的 source、channal、sink一系列的数据处理、切分、读取、传输，多了这么多环节（如果采用多级Agent，中间环节会更多），最终才put到hdfs上去；个人认为，当数据量相对小（几百、几十G）的时候，脚本自己提交到hdfs就挺好，体现不出所谓分布式日志收集的优点，当数据量猛增 T级别或更高时，也许就能体现flume-ng分布式收集牛x的地方了，另外还可以定义些拦截器啥的先做个数据清洗