1.2 如何在数据库设计中使用hash
让我们继续开始的那个表。当数据量爆多时,建立在name1和name2字段上的索引就有性能问题了。那么根据hash原理,我们对这个表增加一列哈希列,然后对这一列增加索引,而不是对name1和name2增加索引,成为这样,
column name | data type |
---|---|
name1 | varchar(50) |
name2 | varchar(100) |
other column | varchar(32) |
hashkey | integer |
create index hashkeyindex on table(hashkey)
hashkey的内容是name1和name2的哈希key,可以通过数据库的checksum来实现。
update table set hashkey=checksum(name1,name)
上面这条语句就会给所有的哈希列赋值。当然更好的办法是建立触发器,每次在插入一条新的记录的时候都对哈希列通过checksum(name1,name2)计算而赋值。
这样,本来建立在两个字段上的索引变成了建立在一个字段上的索引,更重要的是hashkey只有几个byte的大小,比起原来name1+name2=150个字符的大小来说,索引的存储量大大降低了。其实,索引本身也需要一定的搜索,而索引本身越小,搜索一定也就越快。以按名称查询为例,有了哈希列后就可以这么查询
select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的')
由于前面我们提到的哈希key的不一定唯一性,即多个输入可能会被运算成同一个输出(即哈希key),反过来说,一个哈希key有可能对应多条记录,那么上面的这个查询就可能查出不止一条记录,怎么做呢?很简单
select * from table where hashkey=checksum('张三','地方是飞啊飞鹅的') and name1='张三' and name2='地方是飞啊飞鹅的'
where子句中的哈希key的条件已经使查询大大的减少了返回的行数,再通过真实条件过滤,很快就能查到你真正想要的。这种做法有人会觉得不错,但毕竟在数据库中增加了一列,而且还要写个触发器每次往新增列里更新哈希值。有些麻烦。那这里就可以利用计算列来解决这样的问题。
只是,为什么数据库不直接在联合索引中存放哈希值呢?使用者不就更省事了吗?