参考文档: http://kafka.apache.org/documentation/#design
生产者
负载均衡
生产者无需任何路由层接入直接发送数据到日志分区leader节点上。所有的Kafka节点都可以应答服务器存活状态和查询topic中各个分区的leader,以便在任何时间生产者都可以正确的直接发送请求。
生产者指定消息发送到哪个分区。可以随机分配分区,采用各种随机负载均衡实现。或者使用一些语义分期函数。我们暴露了语义分区接口以允许用户指定分区键并将分区键hash到一个分区上(如果需要的话也可以重写分区函数)。例如,如果用用户ID作为分区键,所有指定用户的数据可以被发送到一个分区中。这将允许消费者对其处理的消息的归属作出假设。这种明确设计的分区模式允许在消费者中进行位置敏感的处理。
异步发送
批处理是提高效率的主要因素,Kafka消费者启用批处理后将尝试在内存中积累数据并在一个请求中发送更大的批次。批处理可以被配置以加速不超过指定数量的消息和最大延迟发送界限(例如:64K或者10ms)。这将让服务器聚集更多字节一起发送和更少的大IO操作。缓存可以被配置,并提供了一种机制来权衡少量额外延迟来提供更高吞吐量。
- 生产者配置细节:http://kafka.apache.org/documentation/#producerconfigs
- 生产者 API:http://kafka.apache.org/082/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.html。