优化solr全量建索引速度实践

最新推荐文章于 2022-05-29 21:16:34 发布

zpc15200790194

最新推荐文章于 2022-05-29 21:16:34 发布

阅读量4.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： solr学习文章标签： solr全量建索引

本文链接：https://blog.youkuaiyun.com/zpc15200790194/article/details/45721093

25 篇文章

订阅专栏

本文详细介绍了如何优化Solr全量建索引过程，针对2000万数据量的MySQL表，通过创建复制表、分批读取并构建索引，实现每10万数据一次硬提交，最终在3小时内完成索引建立，显著提升建索引效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

solr全量建索引一般瓶颈都出现在读数据源这一端。目前数据库为Mysql，单表数据2000w,如果采用分页读取mysql的方式，大家都知道Mysql分页越靠后分页速度越慢。本人在项目中采取如下方案进行解决。

假如商品表goods存在2000w数据，其中商品id为自增长方式。读取数据源优化步骤如下

复制商品表及表结构到另一张表 create table goods_replication from select * from goods 大概耗时5分钟
生成一张表与商品结构相同 goods_tempory_record
将goods_replication 表数据复制10w条到goods_tempory_record 表中（insert into goods_tempory_index select * from 1dcq_goods_replication order by goods_id asc limit 100000）大概耗时2s
找出拷贝的10w条数据中最大的商品id记录为maxGoodsId (select max(t.goods_id) from (select goods_id from 1dcq_goods_replication go order by go.goods_id limit 99999,1)t) 耗时不超过1s
根据maxGoodsId删除掉goods_replication中的前10w条记录 (delete from 1dcq_goods_replication where goods_id<maxGoodsId order by goods_id asc) 耗时大概 10s
对goods_tempory_record中的10w数据建索引 (采用多线程解析数据，多线程提交到solr,每10w条进行一次硬提交)
truncate table goods_tempory_record
重复循环 3-7这几个步骤，直到goods_replication中没有数据为止

总结如下

2000w数据，采用15个线程进行多线程提交，每10w数据进行一次硬提交，建索引耗时3小时