问题背景
项目中将Kafka接口进行RESTful封装,在使用RESTful接口进行性能测试时,发现Topic数增多后,开启SSL与非SSL进行测试,发现开启SSL后性能下降得厉害。例如600个Topic总数每个Topic3分区3副本的场景下,使用1200个线程只发送10个Topic,开启SSL的TPS只有3100,但是不开启SSL性能达到11000。
其中测试客户端会启动多个线程,每个线程采用同步发送的方式调用RESTful API发送,即每次发送成功一条后才发送下一条。 客户端会根据发送线程在Topic数之间进行均分,例如1200个线程发送10个Topic,则每个Topic同时有120个线程进行发送。
定位与分析过程
1.SSL性能下降
1.定位分析
开启SSL是会导致性能下降的, 主要来自于CPU的耗时与JVM的具体实现,参见Kafka官网的解释:

从我们之前测试的结果来看,高可靠场景SSL性能下降并没有太厉害(从2.3W TPS下降到2.1W TPS)。应该是触发了某些其他问题。通过JStack查看启动SSL下的堆栈,发现存在一些发送线程被Block住:


本文分析了在Kafka中启用SSL时性能下降的问题,特别是在多Topic场景下。通过JStack发现SSL性能下降主要是由于SecureRandom算法在熵池不足时导致的阻塞。解决方案包括升级JDK或使用非阻塞熵源。此外,Topic增多也会导致时延增加,原因是服务端复制处理变慢。增加复制线程数可以有效改善这一情况。
最低0.47元/天 解锁文章
626

被折叠的 条评论
为什么被折叠?



