原始数据通过Agent的 source、channal、sink一系列 的数据处理、切分、读取、传输,多了这么多环节(如果采用多级Agent,中间环节会更多),最终才put到hdfs上去;个人认为,当数据量相对小(几百、几十G)的时候,脚本自己提交到hdfs就挺好,体现不出所谓分布式日志收集的优点,当数据量猛增 T级别或更高时,也许就能体现flume-ng分布式收集牛x的地方了,另外还可以定义些拦截器啥的先做个数据清洗