数据库的哈希设计

1.2 如何在数据库设计中使用hash

让我们继续开始的那个表。当数据量爆多时,建立在name1和name2字段上的索引就有性能问题了。那么根据hash原理,我们对这个表增加一列哈希列,然后对这一列增加索引,而不是对name1和name2增加索引,成为这样,

column namedata type
name1varchar(50)
name2varchar(100)
other columnvarchar(32)
hashkeyinteger
create index hashkeyindex on table(hashkey)
hashkey的内容是name1和name2的哈希key,可以通过数据库的checksum来实现。
update table set hashkey=checksum(name1,name)

上面这条语句就会给所有的哈希列赋值。当然更好的办法是建立触发器,每次在插入一条新的记录的时候都对哈希列通过checksum(name1,name2)计算而赋值。

这样,本来建立在两个字段上的索引变成了建立在一个字段上的索引,更重要的是hashkey只有几个byte的大小,比起原来name1+name2=150个字符的大小来说,索引的存储量大大降低了。其实,索引本身也需要一定的搜索,而索引本身越小,搜索一定也就越快。以按名称查询为例,有了哈希列后就可以这么查询

select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的')

由于前面我们提到的哈希key的不一定唯一性,即多个输入可能会被运算成同一个输出(即哈希key),反过来说,一个哈希key有可能对应多条记录,那么上面的这个查询就可能查出不止一条记录,怎么做呢?很简单

select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的') and name1='张三' and name2='地方是飞啊飞鹅的'

where子句中的哈希key的条件已经使查询大大的减少了返回的行数,再通过真实条件过滤,很快就能查到你真正想要的。这种做法有人会觉得不错,但毕竟在数据库中增加了一列,而且还要写个触发器每次往新增列里更新哈希值。有些麻烦。那这里就可以利用计算列来解决这样的问题。

只是,为什么数据库不直接在联合索引中存放哈希值呢?使用者不就更省事了吗?

http://mxdxm.javaeye.com/blog/789465

转载于:https://my.oschina.net/xiangxw/blog/14734

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值