mongodb遍历万亿级数据，论索引的重要性

最新推荐文章于 2024-06-06 17:38:44 发布

原创最新推荐文章于 2024-06-06 17:38:44 发布 · 3.7k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#mongodb #索引

mongodb 专栏收录该内容

6 篇文章

订阅专栏

本文分享了一次使用MongoDB处理大规模数据时的经验，通过添加索引显著提升了数据处理速度，从每小时处理几十K数据提升到40分钟内完成全部更新。

【背景】有160万用户账号数据，200万终端账号数据，需要在160万用户账号数据中排除所有账号数据，那就需要遍历 160万 * 200万 = 3200000000000 次运算，3万2000亿次！

用mongodbimport的upsert 命令

mongoimport --db xxx --host xxx --port 27017 --username xxx--password xxx --collection xxx --type csv --headerline --upsertFields uid --file /data/xxx/xxx.csv --numInsertionWorkers 8

这个命令会把找到的数据替换调，举例：原有集合 uid，aa，bb xxx.csv 里面的数据 uid,cc 这个命令执行之后，新的集合数据为 uid，cc 数据被替换了，如果你想添加字段，弄成 uid，aa，bb，cc 这样，mongoimport这个命令貌似是不支持的，需要自己用程序实现。

言归正传，这个命令跑起来非常慢，一个小时更新几十k的数据，我突然想到用增加索引试一试，db.xxx.ensureIndex({"uid":1}); 没想到啊！这么命令执行之后，效果立竿见影，速度一下就上来了，剩下的数据，总共27.7MB （建序列之前，跑了2个多小时，跑了88KB） 40分钟跑完！

牛逼了！索引 32k亿次运算啊

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

carterslam

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

单机版MongoDB插入了亿万条数据之后...

weixin_47284169的博客

06-29

2927

最近因为公司的一个业务迁移，需要对单机MongoDB做一个简单的测试，在写入了亿万条数据之后，数据库的性能还是受到了一些影响的，这里简单记录下。因为是非关键业务，且通过统计得出每秒的写入请求数大约是 700 ，每秒的读取请求数大约是10 ，写入请求的入库对于实时性没有太高的要求，所以整个测试不会追求极致性能。01测试机器的基本信息如下，双核，8GB 内存。磁盘方面，物理机上是SAS接口的机械硬盘，使用dd命令测试吞吐量大约为160MB/s。----------------------------------

Mongodb亿级数据量的性能测试

06-15

Mongodb亿级数据量的性能测试测试项目分析测试结果

参与评论您还未登录，请先登录后发表或查看评论

如何遍历数据量亿级别Mongo库

sweetfire的博客

07-23

2084

场景介绍在使用Mongo这种非关系型数据库过程中，往往存储了海量的数据，这些数据的数据结构非常松散，数据类型比较复杂。对于从海量数据中提取或分析数据，需要遍历Mongo库的情况经常出现，这里介绍两种比较有效的方法，均在亿级别的生产库中，多次使用过。方法一：利用时间戳在存储的数据中，对时间戳字段，建立索引，如下方数据时间戳字段为update_time >>>阅读...

mongo单表大量数据的读取

Firewine 的博客

05-30

1662

mongo单表大量数据的读取重要提示：建议不要直接使用find方法下面是读取方法笔记：（python 语言为主）1. 使用batch_size 方法2. 使用索引切片的方法3. 使用mongo工具，将单表导出json文件或者csv文件重要提示：建议不要直接使用find方法下面是读取方法笔记：（python 语言为主） 1. 使用batch_size 方法可以在不大于16M的情况下，批量返回数据 **但是**在数据超过几千万的情况下，加载会导致游标超时，栈溢出等问题建议千万级别在考虑服务器性能的情

mongodb 亿级别 mysql_为什么千万级、亿级数据有那么多大侠推荐 mongodb

weixin_42691065的博客

01-27

810

site:v2ex.com/t 千万亿 mongo 数据库搜了下这个，挺多哥哥推荐别人用 mongodb 的，不知道是自己真用过还是随口说说，我发现一下子就达到了这个 16MB 的限制，是否他们那么多数据都是用的 GridFS 的？对 mongodb 不熟，我存信息的时候是一个用户一个文档，单个用户的信息没那么大，所以不会超过 =.=但是数据量大的，如日志是怎么个玩法？BSON Document...

mongodb 3.0 索引和集合日常操作

yangzhawen

09-06

2912

mongodb 3.0 索引和集合日常操作

mongo索引性能

jiangzhenkang的博客

08-28

513

mongo索引性能标签（空格分隔）： mongo https://www.cnblogs.com/c-abc/p/6023824.html 测试mongo索引性能有索引，每个值都是唯一值 "executionStats" : { "executionSuccess" : true, "nReturned" : 1, ...

软件测试之Mongodb亿级数据量的性能测试（必看）

测试小小小的博客

07-24

1311

进行了一下Mongodb亿级数据量的性能测试，分别测试如下几个项目：（所有插入都是单线程进行，所有读取都是多线程进行） 1）普通插入性能（插入的数据每条大约在1KB左右） 2）批量插入性能（使用的是官方C#客户端的InsertBatch），这个测的是批量插入性能能有多少提高 3）安全插入功能（确保插入成功，使用的是SafeMode.True开关），这个测的是安全插入性能会差多少 4）查询一个索引后的数字列，返回10条记录（也就是10KB）的性能，这个测的是索引查询的性能 5）查

MongoDB分页的Java实现和分页需求的思考

weixin_34303897的博客

06-07

1104

前言传统关系数据库中都提供了基于row number的分页功能，切换MongoDB后，想要实现分页，则需要修改一下思路。传统分页思路假设一页大小为10条。则 //page 1 1-10 //page 2 11-20 //page 3 21-30 ... //page n 10*(n-1) +1 - 10*n MongoDB提供了skip()和limit()方法。 skip: 跳过指定数...

Mongodb亿级别数据操作

热门推荐

whl 博客专栏

04-11

3万+

最近因为公司业务关系每天需要将300w+的数据，双十一高峰时期为3000w+的数据快速查询并进行转储，而这个过程中查询是个头疼的问题，因为加上老数据总量将近3.2亿的数据量，查询起来如果不得当则会一不小心就暴掉了Mongodb，就容易发生惨烈的从删库到跑路。基础条件： SpringBoot项目引入依赖： <dependency> <groupId>or...

MongoDB 线上实践指南-基础篇之支撑百亿级访问（三）

个人视角下的技术领域探索

12-01

1334

MongoDB 线上实践指南-基础篇之支撑百亿级访问索引 MongoDB 的组合索引使用策略与 MySQL 一致，遵循“最左原则” 索引名称长度不要超过128字符应尽量综合评估查询场景,通过评估尽可能的将单列索引并入组合索引以降低所以数量，结合1，2点【案例8】MongoDB的组合索引规则和MySQL一样,都遵循最左原理,假设一个组合索引为:{a:1,b:1,c:1},那么以下条件的查询是可以

MongoDB的真正性能-实战百万用户一-一亿的道具

dianjupi9036的博客

05-08

504

上一篇为求振聋发聩的效果，有些口号主义，现在开始实战，归于实用主义。使用情景开始之前，我们先设定这样一个情景： 1.一百万注册用户的页游或者手游，这是不温不火的一个状态，刚好是数据量不上不下的一个情况。也刚好是传统MySql数据库性能开始吃紧的时候。 2.数据库就用一台很普通的服务器，只有一台。读写分离、水平扩展、内存缓存都不谈。一百万注册用户如果贡献度和活跃度都不高，恐怕公...

针对亿量级数据MongoDB查询注意点

lynmison的专栏

03-25

2326

MongoDB亿级数据查询

mongo中遍历数据库的方法

weixin_45614626的博客

02-14

1402

虽然mongo由于底层索引的数据格式问题，导致遍历时候效率低下，但是总会有这样的遍历需求，正好也遇到了，就研究了一下怎么遍历。自己写了个test，有两种方式 @Resource private MongoTemplate mongoTemplate; @Resource private VirtualUserMongoDao virtualUserMongoDao; @Test public void virTest(){ MongoCollecti

【Mongodb-01】Mongodb亿级数据性能测试和压测

zhenghuishengq的博客

06-06

1万+

mongodb数据性能测试

search API (一) 基础

男儿当自强

10-15

829

一 search API概览 1 查询所有索引下的文档 GET _search { "query": { "match_all": {} } } 2 查询goods索引下的文档 get goods/_search { "query":{ "match_all": {} } } 3 查询goods和order索引下的文档 get goods,order/_search { "query":{ "match_all":{} } } 4 查询go...

bin文件对比_MongoDB---基于分布式文件存储的数据库（一）

weixin_39866741的博客

11-26

284

MongoDB基础入门到高级进阶视频教程【MongoDB】主要内容MongoDB简介MongoDB下载与安装用户管理Database操作Collection操作Document 操作内置函数运算符索引集群Spring Data MongoDB一、MongoDB简介1. 什么是MongoDBMongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解...

头歌实验MongoDB的索引和数据优化实验

最新发布

04-01

### MongoDB 索引优化与数据优化实验方案 #### 实验目标本实验旨在帮助开发者理解如何通过索引优化和数据分析来提升 MongoDB 的查询性能。重点在于掌握 `explain()` 方法的使用以及识别潜在的性能瓶颈。 --- #### 使用 `explain()` 分析查询执行计划 `explain()` 是一种强大的工具，用于获取查询的执行计划并评估其效率。它提供了有关查询优化器决策的信息，包括索引的选择、扫描文档的数量以及其他重要指标[^1]。可以通过以下方式调用此方法： ```javascript db.collection.find({ field: value }).explain("executionStats"); ``` 上述命令中的 `"executionStats"` 参数能够提供更详细的统计数据，例如 I/O 开销和实际处理时间。这有助于判断当前查询是否高效，并决定是否需要调整索引结构或重写查询逻辑。 --- #### 数据压缩与存储空间管理随着数据库的增长，频繁的增删改操作可能导致大量空洞（fragmentation）。这些未释放的空间不仅浪费磁盘资源，还可能影响内存缓存的有效性[^4]。为了缓解这一问题，可以采取以下措施： - **定期重组集合**：利用 `compact` 命令减少碎片化。 ```bash db.runCommand({ compact: "collectionName" }); ``` - **重建索引**：清理无用的索引条目以节省空间。 ```javascript db.collection.reIndex(); ``` 以上两种策略均需谨慎实施，尤其是在生产环境中，因为它们可能会引发短暂的服务中断。 --- #### 高效计数替代方案对于大规模数据集而言，传统的 `count(*)` 操作往往耗时较长。因此建议采用预计算的方式代替实时统计[^3]。例如，在应用层维护一个独立的汇总表或者借助 Redis 缓存结果值。如果必须依赖于原生 SQL，则优先考虑基于主键范围估算总数而非逐行遍历整个表格内容。 --- #### 结合 Spark 进行大数据分析当面对海量级别的记录文件夹时，仅依靠单机版 MongoDB 可能难以满足需求。此时可引入 Apache Spark 来分担压力，构建分布式计算框架完成复杂任务调度工作流设计[^2]。下面展示了一种简单的 PySpark 脚本来连接远程部署实例并提取指定字段样本： ```python from pyspark.sql import SparkSession spark = ( SparkSession.builder.appName("MongoDB Connector Example") .config( "spark.mongodb.input.uri", "mongodb://username:password@host:port/database.collection?authSource=admin", ) .getOrCreate() ) dataframe = spark.read.format("mongo").load() sample_data = dataframe.select("field_name").limit(10).collect() for row in sample_data: print(row["field_name"]) ``` 注意替换占位符部分的实际配置参数以便成功建立链接关系。 ---