数据库的哈希设计

最新推荐文章于 2025-08-09 18:20:04 发布

weixin_33743703

最新推荐文章于 2025-08-09 18:20:04 发布

阅读量70

点赞数

CC 4.0 BY-SA版权

文章标签：数据库 python

原文链接：https://my.oschina.net/xiangxw/blog/14734

2019独角兽企业重金招聘Python工程师标准>>>

1.2 如何在数据库设计中使用hash

让我们继续开始的那个表。当数据量爆多时，建立在name1和name2字段上的索引就有性能问题了。那么根据hash原理，我们对这个表增加一列哈希列,然后对这一列增加索引，而不是对name1和name2增加索引，成为这样，


column name	data type
name1	varchar(50)
name2	varchar(100)
other column	varchar(32)
hashkey	integer

create index hashkey_index on table(hashkey)

hashkey的内容是name1和name2的哈希key，可以通过数据库的checksum来实现。

update table set hashkey=checksum(name1,name)

上面这条语句就会给所有的哈希列赋值。当然更好的办法是建立触发器，每次在插入一条新的记录的时候都对哈希列通过checksum(name1,name2)计算而赋值。

这样，本来建立在两个字段上的索引变成了建立在一个字段上的索引，更重要的是hashkey只有几个byte的大小，比起原来name1+name2=150个字符的大小来说，索引的存储量大大降低了。其实，索引本身也需要一定的搜索，而索引本身越小，搜索一定也就越快。以按名称查询为例，有了哈希列后就可以这么查询

select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的')

由于前面我们提到的哈希key的不一定唯一性，即多个输入可能会被运算成同一个输出（即哈希key)，反过来说，一个哈希key有可能对应多条记录，那么上面的这个查询就可能查出不止一条记录，怎么做呢？很简单

select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的') and name1='张三' and name2='地方是飞啊飞鹅的'

where子句中的哈希key的条件已经使查询大大的减少了返回的行数，再通过真实条件过滤，很快就能查到你真正想要的。这种做法有人会觉得不错，但毕竟在数据库中增加了一列，而且还要写个触发器每次往新增列里更新哈希值。有些麻烦。那这里就可以利用计算列来解决这样的问题。

只是，为什么数据库不直接在联合索引中存放哈希值呢？使用者不就更省事了吗？

http://mxdxm.javaeye.com/blog/789465

转载于:https://my.oschina.net/xiangxw/blog/14734