mongodb 中的"坑"系列 --- 单个文档16M大小限制

最新推荐文章于 2025-10-29 22:00:48 发布

原创最新推荐文章于 2025-10-29 22:00:48 发布 · 5.5w 阅读

13 ·

CC 4.0 BY-SA版权

Python 同时被 2 个专栏收录

8 篇文章

订阅专栏

mongodb

3 篇文章

订阅专栏

本文探讨了MongoDB中单个文档不能超过16M的限制，指出这种限制可能导致隐形错误，尤其是在无返回码的插入操作中。通过启用安全验证可以及时发现此类错误，但这会牺牲性能。建议的解决方案包括调整数据库结构以避免单文档过大，或使用GridFS存储大数据量信息。

习惯了使用mongodb中文档(document)存储方式, 可以灵活的将大量数据存入一个集合中的一条文档中, 这样可以减少大量的数据冗余, 不会出现关系性数据库, 如myslq中表的某一列的数据冗余. 不过这样存储虽好, 但其实也会存在一定的问题, 也就是mongodb中的大小限制, 即单个文档大小不能超过16M.

对遇到过这个问题的人来说, 这个16M的'概念'很好理解, 而对于还未意识到这个问题的人来说, 这个'坑' 可能会让你花时间都难以发现, 因为这又要牵扯到mongodb的另一个存储机制 ---- 无返回码. 在 < mongodb 权威指南> 一书中, 作者称之为离弦之箭. 什么意思呢, 就是mongodb的插入,删除等操作, 客户端向数据库发出请求之后, 是不需要等待数据库返回操作是否成功的返回结果. 这也是mongodb插入,更新等操作速度快的原因. 这就导致, 当单个文件超过16M之后, 程序并不会报错, 但此时, 数据已经无法插入数据库了.

上代码说明问题:

<span style="font-size:18px;">__author__ = 'ray'

import pymongo
import codecs

def mongo_test():

    fin = codecs.open('test_data.txt', 'r', encoding='UTF-8')   # test_data是一个测试文件, 文件大小为1.1M
    count = 0  
    test.insert({'name': 'test', 'max': 0})   
    line = fin.readline()
    try:
        while count < 20:
            test.update({'name': 'test'}, {'$set': {str(count): line}})   # 循环中每次插入1.1M的数据
            test.update({'name': 'test'}, {'$inc': {'max': 1}}, True)    
            count += 1
    except Exception as e:
        print count, e
    fin.close()


if __name__ == '__main__':
    client = pymongo.Connection('localhost', 27017)
    conn = client.db_wallpaper
    test = conn.test
    mongo_test()</span>

程序输出结果为:
/usr/bin/python2.7 /home/ray/test/mongo_test.py
Process finished with exit code 0

程序并无异常, 此时查看数据库结果如下:

其实只插入了14条记录, 这种隐形的错误很难被发现.

有一种策略可以及时发现这个错误, 那就是使用安全验证, 代码很简单, 把

client = pymongo.Connection('localhost', 27017) ==>> client = pymongo.Connection('localhost', 27017,safe=True)

这样就会有安全验证, 每一次插入会等待上一次的返回结果, 后果就是牺牲mongodb的操作性能. 更新后的结果如下:

而在数据库中, max的值显示为15, 也就是后续的操作就终止了.

===========================分割线==================================

很多使用了mongodb的程序员会对此表示不满, 认为这样的设计非常不方便, 因为我们早已经进入了用G, T来衡量数据的时代, 这16M能干什么. 不过按照mongodb的设计思路来看, 这样的限制其实是有助于我们更改不良的数据库结构设计, 因为笔者在shell中做查询时, 面对16M的文档, 查询起来相当慢, 这样的速度是不能够忍受的.

解决办法:

1: 更改数据表结构, 避免单个文档超过16M, 将数据分开存储, 反正mongodb也比较适合用冗余换取效率. 不妨在同一个集合中多建立几个文档, 分开存储信息

2: 使用GridFS存储大数据量信息, 具体怎么做, 下次再说.

如有问题, 欢迎讨论指正.

完

2 条评论

qq_23370577 2020.04.29
请问下，现在最新的版本还是16M吗？16M大概能包括多少个键值对呢？在哪里能看到相应的文档呢？谢谢楼主

qq_39644215 2018.05.27
想问一下，到底是单个文件大小不能超过16M 还是数据库里的集合大小不能超过16m?这两个概念完全不一样啊，要是你数据库集合里存不下14个1.1M文件，那么爬虫的海量数据又是怎么能存下的？不要混淆了！
- Derek Qiu回复qq_39644215 2020.04.13
  [reply]qq_39644215[/reply]文檔在mongodb裡只是相當於mysql裡的一行數據，一個集合相當於一個表，要弄清楚
- Jiang9412回复qq_39644215 2018.08.24
  [reply]qq_39644215[/reply] 博主说的很清楚，单个文档的大小不要超过16M。