14、深入理解MongoDB GridFS：文件管理与操作指南

最新推荐文章于 2025-11-18 21:00:00 发布

原创最新推荐文章于 2025-11-18 21:00:00 发布 · 86 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#MongoDB # GridFS # 文件管理

探索MongoDB：从入门到精通专栏收录该内容

15 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入理解MongoDB GridFS：文件管理与操作指南

1. 文件名处理

在使用 put 命令时，输出会显示 Filename 键。通常，为避免混淆，最好让该字段保持唯一，但这并非绝对必要。若再次运行 put 命令，会得到两个看似相同的文档，除了 _id 键外，文件和元数据都一样。

MongoDB不更新已有文件而是创建新文件，原因在于可能存在许多文件名相同的情况。比如构建一个存储学生作业的系统，很可能至少有部分文件名是相同的。MongoDB不能假定相同文件名（甚至大小也相同）的文件就是同一个文件，所以很多情况下更新文件会是个错误。不过，可以使用 _id 键来更新特定文件，后续基于Python的实验会进一步探讨这个话题。

2. 确定文件长度

put 命令还会返回文件的长度，这一信息不仅有用，对GridFS的工作方式也至关重要。了解文件大小可作为参考，在编写应用程序时，文件大小也起着重要作用。例如，通过Web（如HTTP）发送文件时，需要指定文件大小。有些服务器不提供此信息，下载文件时，浏览器能显示下载速度，但无法告知完成下载所需时间，就是因为服务器未提供文件大小信息。

知道文件大小在另一个方面也很重要。前面提到文件会被分割成块，默认块大小为256K，也可根据需要更改。要计算一个文件占用多少块，需要知道两个信息：一是每块的大小，二是文件的大小，这样才能确定块的数量。

虽然感觉这可能不重要，但实际上并非如此。例如有一个1MB的文件，块大小为256K，若想访问从800K开始的数据，就知道要从第四块开始。但仍需知道文件的整体大小，因为如果不知道大小，就无法确定有多少有效块。比如请求从1.26MB（即第六块）开始的数据，实际上该块并不存在，但如果没有文件大小作为参考，就无法得知这一点。当然，驱动程序会处理这些问题，不过了解GridFS的“幕后”工作原理对调试应用程序很有帮助。

3. 块大小处理

put 命令还会返回块大小，因为虽然有默认块大小，但可以针对每个文件进行更改，实现灵活的大小设置。如果网站要流式传输视频，可能希望有很多块，这样就能轻松跳转到视频的任何部分。若只有一个大文件，就必须返回整个文件，然后在其中找到指定部分的起始点。而使用GridFS，可以按块级别提取数据。如果使用默认大小，就可以从任何256K的块开始检索数据，也可以指定实际需要的数据部分，例如只需要一部60分钟电影中间的5分钟。

256K的块大小对大多数情况来说是不错的选择。如果决定更改块大小，应该有充分的理由。并且别忘了对自定义块大小的性能进行基准测试和测试，因为理论上更好的系统可能无法达到预期效果。

需要注意的是，MongoDB对文档大小有16MB的限制。由于GridFS只是在标准MongoDB框架中存储文件的一种不同方式，所以这个限制在GridFS中同样存在，即不能创建大于16MB的块。不过这通常不会有问题，因为GridFS的目的就是减轻对大文档大小的需求。如果担心存储大文件会产生过多块文档，也不必担心，生产中的MongoDB系统可以处理超过十亿个文档。

4. 跟踪上传日期

uploadDate 键如其名，用于存储文件在MongoDB中创建的日期。这里要说明的是， files 集合只是一个普通的MongoDB集合，包含普通文档。这意味着可以像处理其他集合一样，添加任何需要的键值对。

例如，在一个实际应用中，需要存储从各种文件中提取的文本内容，以便进行额外的索引和搜索。可以添加一个 file_text 键，并将文本存储在其中。GridFS系统的优雅之处在于，它可以像处理其他MongoDB文档一样处理这些操作。优雅和强大是使用MongoDB的两个显著特点。

5. 文件哈希处理

MongoDB自带MD5哈希算法。在通过互联网下载软件时，可能之前就遇到过这个算法。MD5的原理是每个文件都有一个唯一的签名，文件中任何一处的单个位发生变化，签名都会显著改变。这个签名用于两个目的：安全和完整性。从安全角度看，如果知道MD5哈希值应该是什么，并且信任来源（比如朋友提供的），那么如果哈希值（通常称为校验和）正确，就可以确保文件没有被篡改。这也能保证文件的完整性，确保没有数据丢失或损坏。特定文件的MD5哈希就像文件的指纹，还可以用于识别文件名不同但内容相同的文件。

不过，MD5算法不再被认为是安全的，已经证明可以创建两个内容不同但MD5校验和相同的文件，在密码学中这被称为碰撞。这种碰撞很糟糕，因为攻击者可以以无法检测的方式更改文件。但这种情况在一定程度上还是理论上的，因为故意创建这样的碰撞需要大量的努力和时间，而且这样的文件可能差异很大，明显不是同一个文件。因此，由于MD5广泛被支持，它仍然是确定文件完整性的首选方法。但如果想利用哈希的安全优势，最好使用SHA系列规范，理想情况下是SHA - 256或SHA - 512。虽然这些哈希系列也有一些理论上的漏洞，但还没有人证明可以为SHA系列哈希故意创建碰撞的实际案例。MongoDB使用MD5来确保文件完整性，对于大多数情况来说这没问题，但如果要对重要数据（如用户密码）进行哈希处理，可能应该考虑使用SHA系列哈希。

6. 深入了解MongoDB内部

现在MongoDB数据库中有了一些数据，接下来使用命令行工具连接到数据库并进行查询，更深入地了解这些数据。

例如，对之前创建的文件运行 find() 命令：

$ mongo test
MongoDB shell version: 2.6.5
connecting to: test

> db.fs.files.find()
{ "_id" : ObjectId("51cb61b26487b3d8ce7af440"), "filename" : "/tmp/dictionary", "chunkSize" : 262144, "uploadDate" : ISODate("2013-06-26T21:48:34.621Z"), "md5" : "40c0825855792bd20e8a2d515fe9c3e3", "length" : 4953699 }
>

输出应该很熟悉，这就是之前看到的数据。现在可以看到 mongofiles 打印的信息来自 fs.files 集合中的文件条目。

接下来查看 chunks 集合（需要添加一个过滤器，否则会显示所有原始二进制数据）：

$ mongo test
MongoDB shell version: 2.6.5
connecting to: test
> db.fs.chunks.find({},{"data":0});
{ "_id" : ObjectId("51cb61b29b2daad9857ca205"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 4 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca206"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 5 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca207"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 6 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca208"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 7 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca209"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 8 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20a"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 9 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20b"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 10 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20c"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 11 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20d"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 12 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20e"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 13 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca20f"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 14 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca210"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 15 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca211"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 16 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca212"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 17 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca201"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 0 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca202"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 1 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca203"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 2 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca204"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 3 }
{ "_id" : ObjectId("51cb61b29b2daad9857ca213"), "files_id" :  ObjectId("51cb61b26487b3d8ce7af440"), "n" : 18 }>

输出中有很多条目，原因是在测试命令时，字典文件被添加了几次，后来清空 fs.files 集合时删除了该文件。需要注意的是，从一个集合中删除一些文档对另一个集合没有影响，MongoDB不会以任何特殊方式处理这些文档或集合。如果通过驱动程序或 mongofiles 工具正确删除文件，该工具也会清理 chunks 集合。

直接访问文档和集合是一个强大的功能，但需要谨慎使用。这个功能也很容易让人犯错，所以在手动编辑这些文档和集合时，要确保知道自己在做什么，并进行大量测试。同时要记住，MongoDB驱动程序中的GridFS支持对自定义操作一无所知。

7. 使用搜索命令

目前数据库中只有一个文件，这极大地限制了搜索的类型。所以添加另一个文件，操作步骤如下：
1. 复制文件：

$ cp /tmp/dictionary /tmp/hello_world

将文件导入MongoDB：

$ mongofiles put /tmp/hello_world
connected to: 127.0.0.1
added file: { _id: ObjectId('51cb63d167961ebc919edbd5'), filename: "/tmp/hello_world", chunkSize: 262144, uploadDate: new Date(1372283858021), md5: "40c0825855792bd20e8a2d515fe9c3e3", length: 4953699 }done!

检查文件是否正确存储：

root@core2:~# mongofiles list
connected to: 127.0.0.1
/tmp/dictionary    4953699
/tmp/hello_world    4953699
$

搜索命令的使用很简单，只需要告诉 mongofiles 要搜索的内容，它就会尝试查找，例如：

$  mongofiles search hello
connected to: 127.0.0.1
/tmp/hello_world    4953699
$  mongofiles search dict
connected to: 127.0.0.1
/tmp/dictionary    4953699
$

虽然这里没有什么特别令人兴奋的地方，但有一个重要的结论值得注意：MongoDB可以根据需求简单或复杂。 mongofiles 工具仅用于参考，包含非常基本的调试功能。好消息是，MongoDB可以轻松对文件进行简单搜索；更好的消息是，如果想编写非常复杂的搜索，MongoDB也能提供支持。

8. 删除文件

mongofiles 的 delete 命令用于根据文件名删除文件。如果有多个同名文件，该命令会删除所有这些文件。使用示例如下：

$ mongofiles delete /tmp/hello_world
connected to: 127.0.0.1
$ mongofiles list
connected to: 127.0.0.1
/tmp/dictionary 4953699
$

需要注意的是，很多人认为删除多个同名文件不是问题，因为应用程序不会有重复的名称，这种观点是不正确的。在很多情况下，强制使用唯一名称甚至没有意义。例如，如果应用程序允许用户上传照片到他们的个人资料，很可能收到的文件中有一半会被命名为 photo.jpg 或 me.png 。

如果不太可能使用 mongofiles 来管理实时数据（实际上也没人期望这样使用），那么在删除数据时一般要小心。

9. 从MongoDB检索文件

使用 mongofiles 的 get 命令从MongoDB检索文件，示例如下：

$ mongofiles get /tmp/dictionary
connected to: 127.0.0.1
done write to: /tmp/dictionary
$

这个例子中有一个有意的错误。因为指定了要检索文件的完整名称和路径， mongofiles 会将数据写入同名同路径的文件，实际上会覆盖原始的字典文件。虽然这不是什么大损失，因为是被相同的文件覆盖，而且字典文件最初只是一个临时副本，但如果不小心删除了两周的工作成果，这种行为可能会让人非常震惊。使用 get 命令时和使用 delete 命令一样，需要小心。

10. 总结mongofiles工具

mongofiles 实用工具是一个快速查看数据库内容的有用工具。如果编写了一些软件，怀疑其中有问题，可以使用 mongofiles 来双重检查情况。

它的实现非常简单，不需要复杂的逻辑来完成手头的任务。是否在生产环境中使用 mongofiles 取决于个人喜好。它虽然不是万能工具，但提供了一组有用的命令，如果应用程序出现异常，会庆幸有这些命令。总之，应该熟悉这个工具，因为某天它可能正是解决棘手问题所需的工具。

11. 利用Python的强大功能

此时已经对GridFS的工作原理有了清晰的认识，接下来将学习如何从Python访问GridFS。之前提到过如何安装PyMongo，如果在示例中遇到问题，请确保一切都已正确安装。

如果按照前面的示例操作，现在GridFS中应该有一个文件，并且知道这是一个字典文件，包含一系列单词。接下来将学习如何编写一个简单的Python脚本，打印出字典文件中的所有单词。虽然直接查看原始文件会更简单高效，但这样做更有趣。

下面是一个简单的流程图，展示了从MongoDB存储和检索文件的基本流程：

graph LR;
    A[创建文件] --> B[使用put命令存储到MongoDB];
    B --> C[文件被分割成块存储];
    C --> D[可使用search命令搜索文件];
    D --> E[使用get命令检索文件];
    E --> F[文件被还原];
    B --> G[可使用delete命令删除文件];

通过以上内容，我们对MongoDB GridFS的文件管理和操作有了全面的了解，包括文件名处理、文件长度确定、块大小设置、哈希处理等方面，同时也掌握了使用 mongofiles 工具进行文件的存储、搜索、删除和检索等操作，以及如何利用Python来访问GridFS。在实际应用中，要根据具体需求合理使用这些功能，并注意操作的安全性和正确性。

深入理解MongoDB GridFS：文件管理与操作指南

12. Python操作GridFS示例代码

下面是一个简单的Python脚本示例，用于从GridFS中读取字典文件并打印出其中的所有单词。

import pymongo
from gridfs import GridFS

# 连接到MongoDB
client = pymongo.MongoClient('mongodb://localhost:27017/')
db = client['test']
fs = GridFS(db)

# 查找字典文件
file = fs.find_one({"filename": "/tmp/dictionary"})

if file:
    # 读取文件内容
    content = file.read().decode('utf-8')
    # 分割单词
    words = content.split()
    for word in words:
        print(word)
else:
    print("未找到字典文件。")

上述代码的操作步骤如下：
1. 导入 pymongo 和 gridfs 模块。
2. 连接到本地的MongoDB服务器，并选择 test 数据库。
3. 创建一个 GridFS 对象，用于操作GridFS。
4. 使用 find_one 方法查找名为 /tmp/dictionary 的文件。
5. 如果找到文件，读取文件内容并解码为字符串。
6. 将内容按空格分割成单词，并逐个打印。

13. 不同操作的对比分析

为了更清晰地了解GridFS的各种操作，下面通过表格对比不同操作的特点和注意事项。

操作	命令示例	特点	注意事项
存储文件	`mongofiles put /tmp/hello_world`	简单方便，可指定文件名、块大小等信息	文件名可重复，需注意文件重复存储问题
搜索文件	`mongofiles search hello`	支持简单的文件名搜索	仅基于文件名搜索，功能相对基础
删除文件	`mongofiles delete /tmp/hello_world`	根据文件名删除文件	同名文件会全部删除，需谨慎操作
检索文件	`mongofiles get /tmp/dictionary`	可将文件从MongoDB中取出	可能会覆盖同名文件，使用时要小心

14. 性能优化建议

在使用GridFS时，为了提高性能和效率，可以考虑以下几点建议：
- 合理设置块大小 ：根据实际应用场景，选择合适的块大小。对于视频流等需要随机访问的场景，可以适当减小块大小；对于大文件存储且不需要频繁随机访问的场景，可以增大块大小。
- 使用哈希验证 ：利用MD5哈希算法验证文件的完整性，确保文件在传输和存储过程中没有被篡改。
- 避免直接操作集合 ：尽量使用驱动程序或 mongofiles 工具进行文件操作，避免直接操作 fs.files 和 fs.chunks 集合，以免出现数据不一致的问题。
- 定期清理无用文件 ：及时删除不再使用的文件，释放存储空间，减少数据库负担。

15. 错误处理与调试

在使用GridFS过程中，可能会遇到各种错误，以下是一些常见错误及解决方法：
- 文件未找到 ：检查文件名是否正确，确保文件确实存在于GridFS中。
- 块大小设置错误 ：确保块大小不超过MongoDB的16MB限制，并且符合实际需求。
- 哈希验证失败 ：检查文件是否被篡改，或者重新计算哈希值进行验证。

可以使用 mongofiles 工具的调试功能，查看详细的操作信息，帮助定位和解决问题。例如，在执行命令时添加 --verbose 选项，会输出更详细的日志。

16. 实际应用场景举例

GridFS在很多实际场景中都有广泛的应用，以下是一些具体的例子：
- 多媒体存储 ：用于存储视频、音频等大文件，通过合理设置块大小，实现高效的流式传输和随机访问。
- 文档管理 ：存储各种文档，如PDF、Word等，方便进行索引和搜索。
- 备份与恢复 ：将重要数据备份到MongoDB中，利用GridFS的分布式存储特性，提高数据的安全性和可靠性。

下面是一个多媒体存储的流程图，展示了文件上传和播放的过程：

graph LR;
    A[用户上传视频] --> B[使用put命令存储到MongoDB];
    B --> C[视频被分割成块存储];
    D[用户请求播放视频] --> E[根据文件名搜索视频];
    E --> F[按块读取视频数据];
    F --> G[视频数据被传输到客户端];
    G --> H[客户端播放视频];