在Python上使用Berkeley DB ——bsddb

最新推荐文章于 2021-06-09 11:55:49 发布

原创

最新推荐文章于 2021-06-09 11:55:49 发布 · 4.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #数据库 #Berkeley DB #bsddb

本文介绍了在Python中使用Berkeley DB库（bsddb）进行键值对存储的方法，包括数据库的打开、数据访问模式选择、读写操作、遍历数据库和删除数据。Berkeley DB提供btree、hash、queue、recno四种数据访问模式，适用于不同的数据存储需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前段时间要用最大熵进行自动分词和新词抽取，在处理小文本的时候没什么问题，直接将候选词及其频率、邻接词等信息存入词典放入内存即可。但后来要处理大文本，候选词太多直接导致MemoryError了，就想着先将候选词的信息放入硬盘，虽然降低了点儿速度，但至少也能跑出来结果。所以就找到了比较好用且存储性能较好的Berkeley DB，更棒的是Python自带处理模块——bsddb（Python3以后版本不再自带）。

Berkeley DB与传统的关系数据库不太一样，它存储的是“key-value”这样的键值对，更像是一个词典。而且value只能是字符类型，但毕竟其他类型都能转化为字符串，所以也无所谓了。比如在我的项目里，我就直接存的json数据，存的时候dumps进去，用的时候loads进来，很是方便。

Berkeley DB根据数据量以及用途的不同，可选择三种数据访问模式：btree、hash、queue、recno，四种模式简单说明下：

btree：用树结构存储数据，查询速度很快，可以存储任意复杂的key和value；