MongoDB

‌BSON 格式‌
- 二进制 JSON（Binary JSON），扩展 JSON 功能：支持 Date/Binary/Decimal 等类型，最大文档尺寸 16MB。
- 示例：{ name: "Alice", login_time: new Date("2023-01-01"), profile: { age: 30 } }

‌动态 Schema 机制‌

‌同一集合（Collection）‌ 中允许文档结构自由变化，如：

// 文档1：用户基础信息 { _id: ObjectId(), name: "Bob", email: "bob@example.com" } 

// 文档2：扩展社交信息 { _id: ObjectId(), name: "Alice", twitter: "@alice", tags: ["tech", "music"] }

底层实现：每个文档自带元数据描述结构，查询时动态解析。

‌2. 存储引擎（WiredTiger）‌

‌技术‌	‌作用‌	‌性能影响‌
‌B+树索引‌	默认索引结构，支持范围查询	读优化，随机写需树平衡
‌LSM树（可选）‌	日志结构合并树，追加写入优化	写吞吐量提升 40%+
‌MVCC 并发控制‌	多版本并发控制，读写操作不互斥	支持高并发
‌Snappy/Zlib 压缩‌	数据压缩存储（CPU 换 I/O）	节省 50-70% 磁盘空间
‌Checkpoint 机制‌	每 60 秒将内存脏页刷盘，崩溃时从最近检查点恢复	平衡持久性与性能

‌3. 分布式架构‌

‌副本集（Replica Set）‌
- 最小配置：1 Primary（主节点） + 2 Secondaries（从节点）
- ‌数据同步‌：通过 OpLog（操作日志）实现异步复制，延迟通常在毫秒级。
- ‌自动故障转移‌：心跳检测超时后，剩余节点投票选举新 Primary。
‌分片（Sharding）‌
- ‌分片键（Shard Key）‌：决定数据分布的字段（如 user_id）。
- ‌分片策略‌：
  类型原理适用场景
  范围分片按分片键值范围划分范围查询高效的场景
  哈希分片对分片键哈希后分布数据均匀分布需求
- ‌路由层（Mongos）‌：协调客户端请求，路由到对应分片。

类型	原理	适用场景
范围分片	按分片键值范围划分	范围查询高效的场景
哈希分片	对分片键哈希后分布	数据均匀分布需求

‌二、核心特性详解‌

‌1. 查询与索引能力‌

‌索引类型‌：
- ‌单字段索引‌：db.users.createIndex({ name: 1 })
- ‌复合索引‌：db.users.createIndex({ name: 1, age: -1 })
- ‌多键索引‌：数组字段自动展开索引（如 tags: ["a","b"]）
- ‌TTL 索引‌：自动过期数据（如日志）
- ‌地理位置索引‌：支持球面/平面几何查询

‌聚合框架（Aggregation Pipeline）‌：

db.orders.aggregate([
     { $match: { status: "completed" } }, // 过滤 
     { $group: { _id: "$product", total: { $sum: "$amount" } } }, // 分组求和 
     { $sort: { total: -1 } } // 排序 
])

‌2. 高可用与容灾‌

‌读写策略配置‌：

// 写操作：要求写入多数节点才确认 db.writeConcern({ w: "majority", wtimeout: 5000 }) 

// 读操作：从最近节点读取（低延迟） db.readPreference("nearest")

‌数据恢复‌：
- Oplog 保留窗口（默认 24 小时），可回溯恢复误删数据。

‌3. 扩展性设计‌

‌弹性分片扩容‌：
- 动态添加分片，Balancer 后台自动迁移数据块（默认块大小 64MB）。
- 无停机扩容，适应业务增长。

‌三、适用场景与意义‌

‌1. 核心应用场景‌

‌场景‌	‌MongoDB 解决方案‌	‌对比 RDBMS‌
实时分析	嵌套文档存储 + 聚合管道	避免多表 JOIN 性能瓶颈
内容管理（CMS）	动态 Schema 支持异构内容类型	无需频繁修改表结构
物联网（IoT）	时间序列集合优化高频写入	传统数据库写入延迟高
移动应用	嵌入式文档匹配移动端对象模型	减少 ORM 映射复杂度

‌2. 开发者效率提升‌

‌开发友好性‌：
- 文档结构与代码对象直接映射（如 JSON ↔ Java/Python 对象）。
- 无模式变更的迁移成本，快速迭代产品。

‌3. 企业级能力‌

‌安全‌：TLS/SSL 加密、角色权限控制、审计日志。
‌监控‌：内置 Profiler 分析慢查询，集成 Prometheus/Grafana。

‌四、局限性及应对‌

‌事务限制‌：
- 多文档事务性能低于 RDBMS（推荐单文档事务优先）。
‌JOIN 支持弱‌：
- 需用 $lookup 模拟关联查询，深度嵌套可能低效。
‌内存消耗‌：
- 索引常驻内存，大集群需规划 RAM 与 SSD 配置。

五、特点

‌文档型存储的灵活性‌

采用类似JSON的BSON格式（Binary JSON），支持嵌套数据结构
单条文档最大支持16MB，适合存储复杂对象
示例：一个商品文档可包含基本信息、评论数组、库存对象等

‌动态模式的工程优势‌

开发初期无需冻结数据模型
支持同一集合中存储不同结构的文档
可通过JSON Schema实现后期数据验证

‌性能优化机制‌

支持多种索引类型：单字段/复合/多键/文本/地理空间等
写操作默认写入内存映射文件，通过后台线程持久化
查询优化器会自动选择最佳执行计划

‌分片集群架构‌

支持基于范围/哈希/区域的分片策略
配置服务器存储集群元数据
查询路由器（mongos）自动路由请求

‌查询能力的深度‌

支持match/match/group/$sort等聚合管道阶段
提供$lookup实现类似SQL的join操作
地理空间查询支持包含/相交/邻近等关系

‌高可用实现原理‌

副本集采用Raft选举算法
默认一主多从架构，自动故障转移
从节点可配置为隐藏节点或延迟节点

‌企业级功能‌

加密存储引擎（企业版）
时间点恢复能力
完善的监控和备份工具

以下是MongoDB术语的深度解析表格（含技术细节和典型应用场景）：

术语	技术细节	应用场景示例	注意事项
‌文档(Document)‌	- 最大16MB - 支持嵌套深度100层 - 字段名区分大小写 - `_id`字段自动索引	用户画像（动态属性）、物联网设备数据（异构结构）	避免过度嵌套影响查询性能
‌集合(Collection)‌	- 无需预定义字段 - 可设置`capped`属性实现循环队列 - 支持TTL索引自动过期数据	日志存储（capped集合）、会话数据（TTL索引）	单个集合文档数量无硬性限制，但超过1000万需考虑分片
‌分片(Sharding)‌	- 支持哈希分片/范围分片 - 分片键一旦设定不可修改 - 需配置`mongos`路由服务	电商订单数据（按用户ID哈希分片）、时序数据（按时间范围分片）	分片键选择不当会导致"热点"问题
‌副本集(Replica Set)‌	- 最少3节点（1主2从） - 心跳检测间隔2秒 - 选举超时时间12秒 - 支持读写分离	金融交易系统（高可用）、全球分布式应用（异地多活）	从节点读取可能存在数据延迟
‌聚合管道‌	- 支持50个阶段操作 - `$lookup`实现类JOIN操作 - `$facet`支持多分支聚合	销售报表（多维度统计）、用户行为分析（漏斗模型）	复杂聚合建议配合`$explain`分析性能
‌索引(Index)‌	- 支持通配符索引(`$**`) - 地理空间索引支持球面/平面计算 - 文本索引支持多语言分词	位置服务（2dsphere索引）、内容检索（文本索引）	每个索引增加约8%写入开销
‌事务(Transaction)‌	- 多文档ACID事务 - 默认60秒超时 - 快照隔离级别 - 最大支持16MB操作量	银行转账操作、库存管理系统	跨分片事务性能损耗较大
‌Change Stream‌	- 基于oplog的变更监听 - 支持resume token断点续传 - 可过滤特定操作类型（insert/update等）	实时数据同步、事件驱动架构	需要开启副本集模式
‌GridFS‌	- 文件分块存储（默认255KB/块） - 自动维护`files`和`chunks`集合 - 支持MD5校验	医疗影像存储、视频文件管理	小文件(<16MB)建议直接存文档
‌BSON数据类型‌	- 包含特殊类型：ObjectId(12字节)、Timestamp(8字节)、Decimal128(16字节)、MinKey/MaxKey	ObjectId适合分布式ID、Decimal128处理金融精度	JavaScript驱动会隐式转换数值类型可能造成精度丢失

扩展说明：

‌分片策略选择‌：范围分片适合连续值（如时间戳），哈希分片适合离散值（如用户ID）
‌索引优化技巧‌：ESR规则（Equality-Sort-Range）构建复合索引，覆盖查询(covered query)可避免回表
‌写入关注级别‌：支持{w: "majority"}确保数据持久化到多数节点
‌特殊操作符‌：$expr支持聚合表达式查询，$jsonSchema支持模式验证

‌总结‌

MongoDB 通过文档模型解放数据结构约束，借助 WiredTiger 引擎和分片架构实现高性能与水平扩展。它在处理‌多变数据结构‌、‌高吞吐写入‌和‌分布式部署‌场景中展现优势，成为现代应用（如实时分析、物联网平台）的核心基础设施。开发者在享受灵活性的同时，需针对性设计分片键、索引和聚合管道以发挥极致性能。

常用命令

一、数据库操作命令

show dbs
- 功能：列出所有物理存在的数据库（空数据库不显示）
- 原理：扫描数据目录下的文件系统14
```
// 示例： > show dbs
 admin 0.000GB // 系统管理数据库
 config 0.000GB // 分片配置数据库 
```
use <db_name>
- 特性：数据库不存在时不立即创建，需插入数据后持久化46
- 注意：切换后可通过db命令查看当前数据库

二、集合操作命令

db.createCollection()

高级参数：

db.createCollection("logs", {
 capped: true, // 创建固定集合
 size: 1048576, // 1MB空间限制
 max: 1000 // 最多1000文档
 }) // 常用于日志存储场景:ml-citation{ref="5,6" data="citationList"}

db.<collection>.stats()

输出解析：

{
 "count": 253, // 文档总数
 "size": 64768, // 未压缩字节数
 "storageSize": 81920, // 磁盘占用空间
 "nindexes": 2 // 索引数量 
} // 用于容量监控:ml-citation{ref="8,10" data="citationList"}

三、文档CRUD命令

插入操作：

db.users.insertOne({
 _id: ObjectId(), // 可省略自动生成
 name: "李雷",
 tags: ["学生", "会员"],
 meta: { // 嵌套文档
     created: new Date()
 } 
}) // 原子性写入:ml-citation{ref="1,10" data="citationList"}

查询操作符：

db.orders.find({
 amount: { $gt: 100 }, // 金额>100
 status: { $in: ["paid", "shipped"] },
 "address.city": "北京" // 点符号查询嵌套字段:ml-citation{ref="6,10" data="citationList"}
 }).sort({ created_at: -1 }) // 按时间降序

四、索引管理

创建复合索引：

db.products.createIndex(
 { category: 1, price: -1 }, // 1升序，-1降序
 {
     name: "cat_price_idx", // 自定义索引名
     background: true // 后台构建不影响业务:ml-citation{ref="10,12" data="citationList"}
 } 
)

索引分析：

db.products.find(
 { category: "电子" } 
).explain("executionStats") // 显示查询计划:ml-citation{ref="8,10" data="citationList"}

五、聚合管道

db.sales.aggregate([
 { $match: { date: { $gte: ISODate("2025-01-01") } } }, // 阶段1：过滤
 { $group: {
     _id: "$product",
     total: { $sum: "$amount" },
     avg: { $avg: "$price" }
 } }, // 阶段2：分组计算
 { $sort: { total: -1 } }, // 阶段3：排序
 { $limit: 10 } // 阶段4：限制结果数:ml-citation{ref="10,11" data="citationList"} ])

六、运维监控命令

查看活跃连接：

db.currentOp({
 "active": true,
 "secs_running": { "$gt": 5 } // 运行超5秒的操作:ml-citation{ref="8,12" data="citationList"} 
})

副本集状态：

rs.status() // 显示成员状态/优先级/延迟等信息:ml-citation{ref="12" data="citationList"}

特殊注意事项：

权限控制需在admin库执行：

use admin 
db.createUser({
 user: "admin",
 pwd: "sEcUrE123",
 roles: ["root"] // 超级管理员角色:ml-citation{ref="2,12" data="citationList"} 
})

批量插入性能优化：

var bulk = db.items.initializeUnorderedBulkOp() 
bulk.insert({ _id: 1, name: "A" }) 
bulk.insert({ _id: 2, name: "B" }) 
bulk.execute() // 比单条插入快10倍以上:ml-citation{ref="10" data="citationList"}