在Flume 配置中,Sink的参数batchSize会影响到整个流程的性能。比如说HDFS sink,它的参数称hdfs.batchSize,这样称呼是由于历史的原因,建议使用hdfs.txnEvenMax。 在sink端调优批量值设置,它依赖于相应的隧道(channel)的事务容量。sink端的批量大小应该小于或者等于channel端的事务容量,而事务容量应该设置为实际需要的最大值(channel端)。下列列举了一下优化的sink批量参数值设置。
| 槽类型(Sink Type) | 配置参数(Config parameter) | 类型值(Typical value) |
| Avro | batch-size | 100 |
| HDFS | hdfs.batchSize, hdfs.txnEventMax | 1000 |
| HBaseSink | batchSize | 100 |
| AsyncHBaseSink | batchSize | 100 |
本文详细探讨了在Flume配置中调整Sink批量参数值以优化性能的方法,针对不同Sink类型提供了典型值设置建议,包括Avro、HDFS、HBaseSink和AsyncHBaseSink,并解释了参数调优的原理。
598

被折叠的 条评论
为什么被折叠?



