mysql清除表重复数据

本文介绍如何在数据库中清理重复数据,并将非唯一索引优化为唯一索引,以避免脏数据的产生,通过具体SQL语句展示操作过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

表信息

CREATE TABLE `rmb_item_material` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `store_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '商店id',
  `item_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '商品id',
  `sequence` int(11) NOT NULL DEFAULT '0' COMMENT '排序序号',
  `pin_flag` tinyint(1) NOT NULL DEFAULT '0' COMMENT '置顶标识',
  `pin_time` datetime NOT NULL DEFAULT '1000-01-01 00:00:00' COMMENT '置顶时间',
  `create_time` datetime DEFAULT CURRENT_TIMESTAMP COMMENT '创建时间',
  `update_time` timestamp NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_item_material_sid_iid` (`store_id`,`item_id`)
) ENGINE=InnoDB AUTO_INCREMENT=1048 DEFAULT CHARSET=utf8mb4 COMMENT='商品物料表';

 因为索引idx_item_material_sid_iid并不是唯一索引,导致上次执行数据迁移sql时使生产库出现了部分脏数据;现要清理重复数据。

先查看有哪些数据重复

select store_id, item_id,GROUP_CONCAT(id) from rmb_item_material GROUP BY store_id, item_id HAVING count(1) > 1

如图,store_id和item_id都相等的数据id有这些,现要保留每组最小id的数据,其余重复数据删除

SELECT
    a.id
FROM
    rmb_item_material a
INNER JOIN 
    ( SELECT store_id, item_id FROM rmb_item_material GROUP BY store_id, item_id HAVING count( 1 ) > 1 ) b 
ON 
    ( a.store_id = b.store_id AND a.item_id = b.item_id )
WHERE
    id NOT IN ( SELECT MIN( id ) AS id FROM rmb_item_material GROUP BY store_id, item_id HAVING count( 1 ) > 1 )

DELETE
FROM
	rmb_item_material
WHERE
	id IN (
	SELECT temp.id FROM
	(
		SELECT
			a.id
		FROM
			rmb_item_material a
			INNER JOIN ( SELECT store_id, item_id FROM rmb_item_material GROUP BY store_id, item_id HAVING count( 1 ) > 1 ) b ON ( a.store_id = b.store_id AND a.item_id = b.item_id )
		WHERE
			id NOT IN ( SELECT MIN( id ) AS id FROM rmb_item_material GROUP BY store_id, item_id HAVING count( 1 ) > 1 )
	) temp
	);

再drop掉原来的索引,重新创建成唯一索引

ALTER TABLE rmb_item_material DROP INDEX `idx_item_material_sid_iid`;

ALTER TABLE `rmb_item_material` ADD UNIQUE `udx_item_material_sid_iid` ( `store_id`, `item_id` );

 

### 解决MySQL联结查询中重复记录的方法 当执行涉及多个的联结操作时,可能会遇到重复的数据行。这通常是由于两个或更多之间的关系导致的结果集中存在冗余信息。为了消除这些不必要的重复项,可以采用几种不同的策略。 #### 使用 `DISTINCT` 关键字去除重复行 最简单的方式是在 SELECT 语句前加上 DISTINCT 关键词来确保最终结果只包含唯一的行[^1]: ```sql SELECT DISTINCT column_name(s) FROM table1 JOIN table2 ON table1.id = table2.foreign_id; ``` 这种方法适用于希望获取不带任何重复值的结果集的情况。 #### 调整联结类型减少冗余数据 通过仔细选择合适的联结方式也可以有效控制输出中的重复次数。例如,在某些情况下,使用内连接(INNER JOIN)而不是外连接可能更适合特定的需求,因为前者仅返回匹配双方条件的记录,从而减少了潜在的重复可能性[^3]。 对于确实需要保留一侧所有记录的情形,则应考虑使用 LEFT 或 RIGHT OUTER JOIN 并结合适当的过滤逻辑以避免无意义的 NULL 值填充[^5]: ```sql SELECT t1.column, COALESCE(t2.matching_column,'No Match') as matching_value FROM table1 AS t1 LEFT JOIN table2 AS t2 ON t1.key = t2.fkey WHERE t2.some_condition IS NOT NULL; -- 只取有对应关系的部分 ``` 这里利用了COALESCE函数处理可能出现NULL的位置,并且设置了 WHERE 条件进一步筛选掉不需要的信息。 #### 应用聚合函数与 GROUP BY 子句 另一种方法是基于业务需求应用聚集运算符如 COUNT(), SUM() 等配合GROUP BY 对字段进行分组汇总统计,这样不仅可以去掉重复还可以得到更精炼有用的信息[^4]. ```sql SELECT t1.category, COUNT(DISTINCT t2.item_id) unique_items_count FROM categories AS t1 JOIN items AS t2 ON t1.cat_id = t2.cat_ref GROUP BY t1.category; ``` 此例子展示了按类别计算不同商品数量的同时自然消除了因多次出现同一物品造成的重叠现象。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值