Mongodb 索引优化建议

最新推荐文章于 2024-06-02 21:32:51 发布

AbnerSun2016

最新推荐文章于 2024-06-02 21:32:51 发布

阅读量499

点赞数

分类专栏：数据库 mongodb 文章标签： mongodb 数据库

本文链接：https://blog.youkuaiyun.com/qq_33240755/article/details/84950592

版权

数据库同时被 2 个专栏收录

1 篇文章

订阅专栏

mongodb

1 篇文章

订阅专栏

由于交易collection数据量过大，导致API调用超时。分析发现，原先根据_id排序的索引导致大量无效数据扫描。优化后的索引设计为{'markingSystem': 1, '_id': -1, 'startDate': 1, 'endDate': 1}或{'source': 1, '_id': -1, 'startDate': 1, 'endDate': 1}，显著提高了查询性能。建议组合索引的第一个字段应为高查询频率的等值字段，避免范围查询字段。" 106657570,8408796,Numpy中的数组运算与统计指标,"['数据处理', '数据分析', 'Numpy', '统计学']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

业务背景

偶然的一次机会，听到我们项目的API 调用方说请求超时，server 返回500，经查验说是交易的collection数据量太大(超过100GB)，而且每天通过spring batch新增80w数据量，目前表的数据量已经过亿，有同事分析了查询说是通过索引会扫描大量的无效数据(此处默认通过id 排序分页)，然后只能强制删除了大部分数据（目前是30GB）。

索引优化

原先的查询语句如下（涉及保密数据用xxxx代替）：

db.Trade.find( {_id:{$lte:ObjectId("xxxxxxxx")},"startDate":{"$lte":ISODate("2018-12-08T23:59:59.000Z")},"endDate":{"$not":{"$lte":ISODate("2018-12-08T23:59:59.000Z")}},"source":"XXXX"}).hint('_id_1_startDate_1_endDate_1').sort({ '_id': -1 }).limit(100000)

db.Trade.find( {_id:{$lte:ObjectId("XXXXXXXX")}, "startDate":{"$lte":ISODate("2018-12-08T23:59:59.000Z")},"endDate":{"$not":{"$lte":ISODate("2018-12-08T23:59:59.000Z")}}, markingSystems: { $in: ['XXX'] }}).sort({ '_id': -1 }).limit(100000)

经分析建立如下索引：

db.Trade.createIndex({'source':1,'_id':-1,startDate:1,endDate:1},{background:true})

db.Trade.createIndex({'markingSystem':1,'_id':-1,startDate:1,endDate:1},{background:true})

优化后的performance : from 100sec to 2sec

原因：

原先的索引'_id_1_startDate_1_endDate_1'有明显的缺点，它是先根据_id排序再过滤的,所以Iindexscan的时候会过滤大量的无效数据，而新的索引{'markingSystem':1,'_id':-1,startDate:1,endDate:1} or {'source':1,'_id':-1,startDate:1,endDate:1}会根据markingSystem or source过滤掉大量无效数据，接下来再根据其他过滤条件来过滤的范围会小很多。