作为前言,我对数据库设计不是很有经验.我有一张哈希和ids表.添加一组新哈希时,组中的每一行都会获得相同的ID.如果数据库中已存在新组中的任何哈希,则新组和现有组中的所有哈希都会获得一个新的共享ID(在重复哈希时有效地合并ID):
INSERT INTO hashes
(id, hash)
VALUES
($new_id, ...), ($new_id, ...)
ON DUPLICATE KEY UPDATE
repeat_count = repeat_count + 1;
INSERT INTO hashes_lookup SELECT DISTINCT id FROM hashes WHERE hash IN (...);
UPDATE hashes JOIN hashes_lookup USING (id) SET id = '$new_id';
TRUNCATE TABLE hashes_lookup;
其他表引用了这些id,因此如果id发生更改,则外键约束会负责更新表中的id.但是,这里的问题是我无法在任何子表中强制实现唯一性.如果我这样做,我的查询失败:
Foreign key constraint for table ‘…’, record ‘…’ would lead to a duplicate entry in table ‘…’
考虑到以下测试用例,其中id和value是复合唯一键,这个错误是有意义的:
id | value
---+-------
a | 1
b | 2
c | 1
然后a变为c:
id | value
---+-------
c | 1
b | 2
c | 1
但是,c,1已经存在.
如果存在ON UPDATE IGNORE CASCADE选项,那将是理想的,因此如果存在重复行,则忽略任何重复插入.但是,我很确定这里真正的问题是我的数据库设计,所以我对所有建议都持开放态度.我目前的解决方案是不强制跨子表的唯一性,这会导致大量冗余行.
编辑:
CREATE TABLE `hashes` (
`hash` char(64) NOT NULL,
`id` varchar(128) NOT NULL,
`repeat_count` int(11) NOT NULL DEFAULT '0',
`insert_timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP,
`update_timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
UNIQUE KEY `hash` (`hash`) USING BTREE,
KEY `id` (`id`) USING BTREE
) ENGINE=InnoDB DEFAULT CHARSET=latin1
CREATE TABLE `emails` (
`id` varchar(128) NOT NULL,
`group_id` char(5) NOT NULL,
`email` varchar(500) NOT NULL,
KEY `index` (`id`) USING BTREE,
UNIQUE KEY `id` (`id`,`group_id`,`email`(255)) USING BTREE,
CONSTRAINT `emails_ibfk_1` FOREIGN KEY (`id`) REFERENCES `hashes` (`id`) ON DELETE CASCADE ON UPDATE CASCADE
) ENGINE=InnoDB DEFAULT CHARSET=latin1
本文探讨了一种在数据库中合并重复哈希并为它们分配相同ID的方法。当新哈希组与现有哈希组有交集时,通过更新ID来实现哈希的合并,并讨论了这种设计下唯一性约束的问题。
805

被折叠的 条评论
为什么被折叠?



