17.Mongodb预分片(pre-split)/autosplit(chunk/jumbochunk相关)

本文详细介绍了MongoDB的预分片策略,包括为什么要预分片,如何查看chunk信息和jumbo chunk情况,以及如何调整chunk大小和预分片操作。重点讨论了范围分片和hash分片下的预分片方法,并提醒了jumbo chunk可能带来的性能瓶颈和管理策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

可以参考分片集群的介绍  这里

关于balancer的介绍(split对性能影响的测试)  这里

零、使用经验

问题一、预分片的话chunk数如何确定?

目前有40亿条数据,长期来看要存200亿+数据;每条数据0.5KB;现在总共是分了1000个集合。200亿数据均分下去的话每个集合存2000万条数据,存储占用为1000万KB=10000M。chunk数=10000M/64M = 156个。考虑到倾斜numInitialChunks为200即可。 以这个依据决定预分片是大致合理的。

注:哈希分片才能用numInitialChunks,如果是范围分片的话,则需要手动splitAt

问题二、jumbo chunk带来的问题。

①如果这些jumbo chunk是高频访问的,就会引起但shard的性能瓶颈;②另外就是chunk无法迁移,会引起shard间的是数据不均匀。(很好理解,就是这个分片的数据太多了会有瓶颈)

不过头4.4+之后可以通过设置来使得jumbo chunk可以被移动(这里),一定程度能缓解其带来的问题(例如:一个shard上有好多个jumbochunk,至少可以移动一部分到其他shard上去了)。但是总的来讲还是要尽量避免jumbo chunk产生的。

一、为什么要预先分片

        有的时候mongodb的读写量并不是很大,但是cpu负载相对较高;另外有时候在迁移数据的时候发现整体的进度好慢。这个时候可能就需要留意两种情况了:一个是mongodb是否频繁的balance;另一个是否有频繁的split操作。通过手动预分片我们可以尽量的避免这种频繁balance和split对cpu和IO资源的消耗。

二、chunk数/chunk范围/jumbochunk的查看

        还是那句话,建立反馈机制非常重要。最理想的情况就是你的每一个操作都有迹可循、都能看到操作前后的不同。

(1)sh.status()  查看chunk的信息 (考虑到输出信息太多,所以不是很推荐)

我们可以通过sh.status()查看各个集合分片情况,包括是否分片(分片键/分片方式等信息)、balancing是否打开、chunks的信息(包括每个分片有多少chunks/每个chunks的起止范围)。如下图所示:

(2)通过config库的chunks表查看chunk信息(推荐)

#很简单。看一下其中的数据组成就知道怎么看了
db.chunks.find().pretty()

{
        "_id" : "db_imsdk_roaming.collection_11-appid_MinKey",
        "ns" : "db_imsdk_roaming.collection_11",
        "min" : {
                "appid" : { "$minKey" : 1 }
        },
        "max" : {
                "appid" : NumberLong("-6148914691236517204")
        },
        "shard" : "cmgo-g1ydokzz_0",
        "lastmod" : Timestamp(1, 0),
        "lastmodEpoch" : ObjectId("60ed93131763e87001393b56"),
        "history" : [
                {
                        "validAfter" : Timestamp(1626182419, 123),
                        "shard" : "cmgo-g1ydokzz_0"
                }
        ]
}


#筛选jumbo chunk,就可以看到有多少个jumbochunk了
use config
db.chunks.find({"jumbo":true})

想查看某集合的chunk情况执行如下指令就可以了:

db.chunks.find({ns:"db_pre_split.coll_0"})
#如果只想查看起止范围就指定min/max字段
db.chunks.find({ns:"db_pre_split.coll_0"},{min:1,max:1})
#如果只是想查看chunk数量就直接统计一把
db.chunks.find({ns:"db_pre_split.coll_0"},{min:1,max:1}).count()

(3)db.coll_name.getShardDistribution()

每个分片有多少chunk/预估每个chunk的文档数/预估每个chunk的存储占用 等信息。

db.collection_event_track_986.getShardDistribution()

 

(4)查看chunk块大小的函数

AllChunkInfo = function(ns, est){
	var chunks = db.getSiblingDB("config").chunks.find({"ns" : ns}).sort({min:1}); //this will return all chunks for the ns ordered by min
	//some counters for overall stats at the end
	var totalChunks = 0;
	var totalSize = 0;
	var totalMsgNum = 0;
	var totalEmpty = 0;
	print("                     ChunkID,                             Shard,ChunkSize,ObjectsInChunk"); // header row
	// iterate o
<think>嗯,用户在使用MongoDB的时候遇到了启动命令失败的问题。让我仔细看一下他的命令和错误信息。首先,用户执行的命令是: mongod --dbpath /usr/local/mongodb/data/ --config /usr/local/mongodb/mongodb.conf--logpath /usr/local/mongodb/log/mongodb.log --port 27017 然后报错说日志文件已存在,被移动了,但可能还有其他问题。用户以root身份执行,但可能权限有问题? 首先,我需要检查用户的命令格式是否正确。注意到在--config参数后面,路径和--logpath之间没有空格,这可能是个问题。用户写的是“--config /usr/local/mongodb/mongodb.conf--logpath”,中间应该有个空格,否则MongoDB会认为--logpath是配置文件路径的一部分,导致参数解析错误。这应该是主要问题所在。 然后,用户看到的错误信息是日志文件已存在,被重命名了。这可能是因为之前MongoDB正常关闭时没有删除日志文件,或者用户在启动时没有使用--fork参数在后台运行,导致控制台输出和日志文件的冲突?不过错误信息中的移动是正常行为,当检测到已有日志文件时,MongoDB会将其重命名备份,然后创建新的日志文件。但用户可能误以为这是错误,其实可能只是警告。 但问题在于,用户是否成功启动了服务?可能命令因为参数错误而未能正确执行。比如,当--config后面没有正确分隔参数时,MongoDB可能无法正确读取配置文件,导致后续参数被忽略或解析错误,从而启动失败。 另外,用户是否有权限访问指定的目录?比如,/usr/local/mongodb/data/、日志目录等,需要确保MongoDB进程有写入权限。如果用户使用root运行,可能没问题,但数据目录的权限是否正确?比如,如果之前是用其他用户创建的,可能导致权限问题。 接下来,可能的解决方案包括: 1. 修正命令中的参数分隔问题,确保每个选项之间有空格。 2. 检查配置文件中的设置是否与命令行参数冲突,比如是否在配置文件中指定了不同的dbpath或logpath。 3. 确保相关目录存在且有正确的权限。 4. 如果使用--config参数,可能需要确认配置文件中的内容是否正确,避免重复指定参数导致冲突。 5. 检查端口27017是否被其他进程占用。 6. 查看移动后的日志文件内容,确认是否有其他错误信息。 此外,用户可能没有使用--fork参数,导致进程在前台运行,如果控制台关闭,进程会终止。但用户的问题可能只是命令参数格式错误导致启动失败。 所以,首先应该让用户修正命令中的空格问题,然后检查目录权限和存在性。如果用户仍然遇到问题,可能需要进一步检查日志内容,或者配置文件的内容是否正确。</think>根据您提供的命令和错误信息,问题主要由参数格式错误和目录权限问题导致。以下是分步解决方案: --- ### **步骤1:修正命令格式错误** 您原始命令中`--config`和`--logpath`参数之间缺少空格,导致参数解析失败。正确命令应为: ```bash mongod --dbpath /usr/local/mongodb/data/ \ --config /usr/local/mongodb/mongodb.conf \ --logpath /usr/local/mongodb/log/mongodb.log \ --port 27017 ``` 👉 **关键修改**:在`--config`参数的值后添加空格,确保参数独立。 --- ### **步骤2:检查目录权限** MongoDB需要对数据、日志目录有**写入权限**。执行以下命令: ```bash # 创建目录(如果不存在) sudo mkdir -p /usr/local/mongodb/{data,log} # 赋予MongoDB用户(通常为mongodb)权限 sudo chown -R mongodb:mongodb /usr/local/mongodb sudo chmod -R 755 /usr/local/mongodb ``` --- ### **步骤3:验证配置文件内容** 如果使用了`--config`参数,需确保配置文件`mongodb.conf`与命令行参数**无冲突**。例如: ```yaml # /usr/local/mongodb/mongodb.conf storage: dbPath: /usr/local/mongodb/data/ systemLog: destination: file path: /usr/local/mongodb/log/mongodb.log logAppend: true net: port: 27017 ``` ⚠️ **注意**:配置文件中若已定义`dbPath`或`logpath`,命令行中需移除对应参数避免冲突。 --- ### **步骤4:以守护进程模式启动(推荐)** 添加`--fork`参数让MongoDB后台运行: ```bash mongod --dbpath /usr/local/mongodb/data/ \ --config /usr/local/mongodb/mongodb.conf \ --logpath /usr/local/mongodb/log/mongodb.log \ --port 27017 \ --fork ``` --- ### **步骤5:排查常见问题** 1. **端口冲突** 检查27017端口是否被占用: ```bash sudo lsof -i :27017 ``` 若被占用,终止相关进程或更换端口。 2. **日志分析** 查看日志文件内容,定位具体错误: ```bash tail -f /usr/local/mongodb/log/mongodb.log ``` --- ### **完整修复命令示例** ```bash # 确保目录存在并设置权限 sudo mkdir -p /usr/local/mongodb/{data,log} sudo chown -R $(whoami) /usr/local/mongodb # 若以当前用户运行 # 启动MongoDB(无配置文件时) mongod --dbpath /usr/local/mongodb/data/ \ --logpath /usr/local/mongodb/log/mongodb.log \ --port 27017 \ --fork ``` --- ### **总结** - **参数格式**:确保每个参数之间有空格。 - **目录权限**:MongoDB需对数据、日志目录有写入权限。 - **配置文件**:避免参数重复定义。 - **日志分析**:通过日志文件定位深层问题。 若问题仍存在,请提供`/usr/local/mongodb/log/mongodb.log`中的错误详情以便进一步分析。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

焱齿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值