从Solr卡顿到G1垃圾回收

最新推荐文章于 2025-07-16 09:32:07 发布

原创

最新推荐文章于 2025-07-16 09:32:07 发布 · 5.1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#solr #java #GC

本文讲述了在Solr搜索服务中遇到的查询卡顿问题，通过分析发现是由Full GC引起的。文章详细介绍了如何通过调整G1垃圾回收器参数来优化Solr性能，包括开启GC日志、理解G1内存模型、解决内存碎片问题以及调整关键参数如-XX:InitiatingHeapOccupancyPercent，最终成功降低了错误率并获得了性能提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

开源搜索引擎Solr是一款非常优秀的搜素引擎，只要一些简单的配置就能进行使用，大大减少了开发时间。

在我工作的环境中，整站的商品搜索业务都是依托于Solr，在Solr的使用上沉淀了不少宝贵的开发经验。随着公司商品数据规模不断的扩大，针对Solr的二次开发难度也在不断的增大，在过去的几年时间内，我把大量的数据放在索引构建上，从之前的DB模式24小时都无法完成全量的构建，到现在使用hive + avro + mapreduce把全量构建压缩到3小时以内，从之前的DB增量模式经常出现更新失败，更新延迟，到现在使用kafka+redis的模式保证更新数据不丢实，更新的延迟在1分钟以内。整个全量增量的索引架构都是可以横向扩展。

在索引构建告一段落后，查询又出现了问题，经常可以看到Solr每隔20分钟，会有timeout情况的出现。查看了下日志，在那段报错的时间段，正好是slave从master上获取增量数据的时间（replication配置了每隔20分钟slave replication一次数据到master），而Solr中许多内置的缓存都开的比较大。当数据更新后，Solr会对Cache进行重新的预热，在这个时候，有大量的内存对象会被换入换出，可能在这个点触发了full gc。

为了验证是否是full gc的可能，首先第一步获取full的信息，命令：

使用lsof命令根据端口找出pid（当然linux有很多其他方式，条条大路通罗马），然后使用jstat -gc命令获取信息。图中该Solr程序已经运行了196hrs35min，可以看出FGC一共执行了356次，一共花费6331s，平均一次停顿18s，这种停顿在java中有个专有名词——stop the world(STW),顾名思义在这18秒内，所有的业务代码都会stop给GC让出资源。结合程序启动的时间，平均每30分钟有一次18秒的卡顿，无论solr本身的性能再优越18秒足以让client time，问题也就这样终于被发现了。

由于Solr进程没有进行full gc的制定，所以都是java6的默认配置，java6默认的配置对于Solr这种低延迟的场景显然是不适用的，所以需要选择一款合适