使用group by 进行去除重复值

最新推荐文章于 2024-07-29 03:47:56 发布

最新推荐文章于 2024-07-29 03:47:56 发布 · 2.6k 阅读

本文澄清了一个常见的误区：使用GROUP BY并不一定需要配合聚合函数。实际上，如果SELECT子句中出现了某些字段，则这些字段也应该出现在GROUP BY子句中，除非它们是通过聚合函数处理的。文章举例说明了如何使用GROUP BY去除重复数据，并指出通常不建议使用DISTINCT来完成这一任务，因为它可能带来性能问题。

一直有一种这样的误导：使用group by 一定要和聚合函数一起
其实这样说是不对的，
正确的理解应该是：
要用group by的话，在select 中出现的字段，就应该在Group by 中出现，除非它是聚合函数之类的。
如：


select datatime from table group by datatime;

这条语句就是去除重复的datatime列数据，大家可以试试。
一般不推荐使用distinct 来去除重复数据，因为它的性能不好。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_6841

关注关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

count(distinct xxx) 和 group by 做去重隐藏的坑

欧阳正才的博客

07-11

5703

不说废话，直接上代码。以下查询是基于mysql自带的country,city,countrylanguage三个样例表做的： select count(*) from country union all SELECT count(distinct Code, Name, Continent, Region, SurfaceArea, IndepYear, Population, Life...

使用mysql的disctinct group by查询不重复记录

09-14

总结一下，`DISTINCT`适用于简单地去除查询结果中的所有重复行，而`GROUP BY`则更加强大，可以与聚合函数配合处理多列数据，并对每个分组进行操作。在处理不重复记录时，如果需要保留额外列的信息，`GROUP BY`通常会...

参与评论您还未登录，请先登录后发表或查看评论

group by 可以去掉重复数据

it_taojingzhan的博客

02-23

5158

select date,no from table1 group by date,no

MySQL去重该使用distinct还是group by？

12-14

前言关于group by 与distinct 性能对比:网上结论如下，不走索引少量数据distinct性能更好，大数据量group by 性能好，走索引group by性能好。走索引时分组种类少distinct快。关于网上的结论做一次验证。准备阶段屏蔽查询缓存查看MySQL中是否设置了查询缓存。为了不影响测试结果，需要关闭查询缓存。 show variables like '%query_cache%'; 查看是否开启查询缓存决定于query_cache_type和query_cache_size。方法一：关闭查询缓存需要找到my.ini，修改query_cache_type需

使用group by 去重

斯特凡今天也很帅的博客

06-16

4663

distinct去重 select count(distinct(column1)) from 表名 where column3=20210611; group by去重 select column1, count(1) from 表名 where column3=20210611 group by column1;

groupby去重

weixin_40718824的博客

03-18

7784

Groupby 分组后，如果没有对分组后的数据进行操作，如对每组求和取平均取最小等操作，分组后直接显示，则默认显示该分组的第一条数据。第一幅图是没有进行groupby操作后的数据，数据共有48条下图是在第一幅的基础上按照s_id进行groupby的操作，可以看出只显示按照s_id分组后每组的第一条数据下图是在第一幅的基础上对s_id,c_id进行分组的每组的第一条数据，在第一副中，前三条为第一组，4-6条为第二组，每组中s_id，c_id都是相同的。 ...

group by去重，按条件去重

湫止的博客

12-09

4776

group by去重，按条件去重

解析mysql中:单表distinct、多表group by查询去除重复记录

09-10

`GROUP_CONCAT()`在更高版本的MySQL中可以用来组合字段值，同时去除重复，例如`SELECT field1, GROUP_CONCAT(DISTINCT field2) FROM table GROUP BY field1`。此外，`GROUP BY`的一个实际例子是在内容管理系统中，...

对DataFrame数据中的重复行,利用groupby累加合并的方法详解

09-19

此时，直接删除重复行可能会导致数据丢失，而通过 `groupby` 和 `sum()` 的组合则可以很好地保留并统计这些重要信息。 #### 2. groupby与sum函数的基本用法 - **groupby**: `groupby` 是 Pandas 中的一个核心函数...

group by 去重处理数据

qq_38807606的博客

03-22

4503

1. # 需求：结果： # + ----+------+ # | name|boy_id| # + ----+------+ # | A |1 | # | B |2 | # | C |3 | # + ----+------+ # group by 对结果的重复数据去重 select * from girl ; # +--+----+------+ # |id|name|boy_id| # +--+----+------+ # |1 |A |1

Group By去除重复数据

a977638248的博客

09-11

1727

今天在写一个sql，目的是去除表里某一个字段相同的数据，只保留最新的一条。之前group by 用的少。特此记录一下。 SELECT * FROM litb_approval_task SELECT MAX(taskid),ApproverId,MAX([approvalid]), MAX([CreateUserID]),MAX([CreateUserName]), MA...

group by 分组去重

小哇

09-21

5169

SELECT a.projectname,a.code,a.statename,a.managerid,a.managername FROM pms_project AS a INNER JOIN ( SELECT CODE,MAX(managerid) AS managerid FROM pms_project GROUP BY CODE ) AS t ON a.managerid=t.ma...

mysql group by删除重复数据

weixin_37991734的博客

07-29

307

MySQL中使用GROUP BY删除重复数据在数据库操作中，我们经常需要处理重复数据的问题。在MySQL中，使用GROUP BY语句可以有效地删除重复的数据，同时保留我们需要的唯一值。本文将介绍如何使用GROUP BY语句来删除重复数据，并提供代码示例和类图、状态图来帮助理解。 GROUP BY 语句简介 GROUP B...

GROUP BY 实现去重排序

java_liuyuan的博客

12-27

1963

1. 需求：有一张物流表，需要查询店铺最近使用的10个物流承运商，去重，倒序。 2. 表结构： id ｜ logistics_carrier ｜ shop_id ｜ gmt_create 3. sql 看到这个需求，我第一时间想到的就是DISTINCT或者GROUP BY，但是在测试的过程中，发现DISTINCT和GROUP BY都只能实现去重，但是去重的同时想要按照我们的要求排序，就不行了，多次优化以后，最终sql写成了这样： SELECT logistics_carrier FROM logist

Mysql去重查询---DISTINCT、group by

时光里的博客

01-14

1926

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言前言 https://blog.youkuaiyun.com/wang1qqqq/article/details/115241993 https://blog.youkuaiyun.com/wzy0623/article/details/97918038? https://wxy0327.blog.youkuaiyun.com/article/details/54378367? ...

（MySql）distinct、group by去重

Mr_EvanChen的Blog

05-25

1354

mysql distinct 去重在使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是 distinct只能返回它的目标字段，而无法返回其它字段，这个问题让我困扰了很久，用distinct不能解决的话，我只有用二重循环查询来解决

Hive 总结

数据开发探索者

09-18

832

Hive 总结总结人：周彦君 0.补充 0.1 什么是hive 1. Hive：由Facebook开源用于解决'海量结构化日志'的数据统计'工具'。 2. Hive是基于Hadoop的一个'数据仓库工具'，可以将结构化的数据文件'映射'为一张表，并提供类SQL查询功能。 3. '本质'：将HQL转化成MapReduce程序 4. '原理介绍' （1）Hive处理的数据存储在HDFS （2）Hive分析数据底层的实现是MapReduce （3）执行程序运行在Yarn上 0.2 优

使用group by 数据变慢_R 语言一次合并多组数据以及长宽数据转换

weixin_39650994的博客

11-26

361

现在是 2020 年 1 月 12 日：参考链接：Merging a lot of data.frames [duplicate]merge.html当列名相同时第一种方法：df1 = data.frame(id = c('1','73','2','10','43'), v1 = c(1,2,3,4,5)) df1 df2 = data.frame(id = c...

distinct与group by 去重

weixin_44792849的博客

12-25

6388

distinct简单来说就是用来去重的，而group by的设计目的则是用来聚合统计。单纯的去重操作使用distinct，速度是快于group by的。distinct 是针对要查询的全部字段去重，而 group by 可以针对要查询的全部字段中的部分字段去重，它的作用主要是：获取数据表中以分组字段为依据的其他统计数据。两者执行方式不同，distinct主要是对数据两两进行比较，需要遍历整个表。

如何使用GROUP BY删除多字段重复数据？

最新发布

08-05

在 SQL 中，`GROUP BY` 子句通常用于对数据进行分组以便进行聚合计算，但它本身并不用于删除数据。要删除具有多字段重复的记录，可以结合 `GROUP BY` 和 `HAVING` 子句，配合 `DELETE` 语句来实现。假设有一个名为 `employees` 的表，其结构如下： ```sql CREATE TABLE employees ( id INT PRIMARY KEY, name VARCHAR(100), department VARCHAR(100), salary DECIMAL(10, 2) ); ``` 表中存在多字段重复的数据，例如 `name`、`department` 和 `salary` 字段组合的重复记录。要删除这些重复记录，只保留每组中的一条记录，可以使用以下方法。 ### 使用子查询结合 GROUP BY 删除重复记录以下 SQL 语句将删除 `name`、`department` 和 `salary` 字段组合重复的记录，仅保留每组中 `id` 最小的那条记录： ```sql DELETE FROM employees WHERE id NOT IN ( SELECT MIN(id) FROM employees GROUP BY name, department, salary ); ``` 此语句的工作原理是： - 子查询部分 `SELECT MIN(id) FROM employees GROUP BY name, department, salary` 会找出每组重复数据中 `id` 最小的记录。 - 主查询部分删除所有不在这些最小 `id` 列表中的记录[^3]。 ### 使用临时表删除重复记录如果数据库不支持在 `DELETE` 语句中直接使用子查询（例如某些版本的 MySQL），可以先将去重后的数据存入临时表，再重新插入回原表： ```sql -- 创建临时表存储去重后的数据 CREATE TEMPORARY TABLE temp_employees AS SELECT * FROM employees WHERE id IN ( SELECT MIN(id) FROM employees GROUP BY name, department, salary ); -- 清空原表 TRUNCATE TABLE employees; -- 将去重后的数据重新插入原表 INSERT INTO employees SELECT * FROM temp_employees; ``` ### 注意事项 - 在执行删除操作前，建议先使用 `SELECT` 语句测试分组结果，确保逻辑正确。 - 删除操作是不可逆的，务必谨慎操作。 - 如果数据库支持窗口函数（如 MySQL 8.0+、PostgreSQL 等），也可以使用 `ROW_NUMBER()` 函数实现更灵活的去重操作： ```sql DELETE FROM employees WHERE id IN ( SELECT id FROM ( SELECT id, ROW_NUMBER() OVER (PARTITION BY name, department, salary ORDER BY id) AS rn FROM employees ) AS duplicates WHERE rn > 1 ); ``` 此方法通过 `ROW_NUMBER()` 函数为每组重复数据编号，删除编号大于 1 的记录，从而保留每组中的一条记录[^3]。 ---