Hive/Mysql中distinct和group by在count上的区别

最新推荐文章于 2023-04-07 16:23:01 发布

原创最新推荐文章于 2023-04-07 16:23:01 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sql

基础知识专栏收录该内容

13 篇文章

订阅专栏

探讨了在SQL中使用count(*)与count(distinct)的区别，尤其是在处理空值时的统计差异，帮助理解如何根据需求选择合适的计数方法。

遇到了一个很有意思的问题，在用count统计数量时，distinct和group by的结果竟然不同，
select count(*) from (select 1 from tt group by id,name) a;
select count(distinct id,name) from tt;

在有空值时，这两个语句得到的结果是不同的，distinct在count时会排除空值字段，所以可能会发生统计不准确的情况。

count with group by：

count with distinct：

但是如果将二者的数据都打印出来，会发现两个的结果是一样的

在这里插入图片描述

因此，在做去重统计时，如果字段存在空值，根据自己的需求选择count (distinct xx,xx)或count(1) from xxx group by xx,xx ，否则可能会统计不准确

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

kehan_c

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

count(distinct xxx) 和 group by 做去重隐藏的坑

欧阳正才的博客

07-11

5702

不说废话，直接上代码。以下查询是基于mysql自带的country,city,countrylanguage三个样例表做的： select count(*) from country union all SELECT count(distinct Code, Name, Continent, Region, SurfaceArea, IndepYear, Population, Life...

Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

Sun's Blog

02-04

1208

两种方式，分别查询数据有多少行： hive (gmall)> select * from ods_log; Time taken: 0.706 seconds, Fetched: 2955 row(s) hive (gmall)> select count(*) from ods_log; 2959 两次查询结果不一致的原因分析 hive (gmall)> drop table if exists ods_log; CREATE EXTERNAL TABLE ods_log (`l

参与评论您还未登录，请先登录后发表或查看评论

关于mySql的count(distinct)与group by的用法与区别

weixin_42383648的博客

09-02

1977

关于mySql的count(distinct)与group by的用法与区别

使用distinct在mysql中查询多条不重复记录值的解决办法

TomyGuan的专栏

05-11

3740

在使用mysql时，有时需要查询出某个字段不重复的记录，虽然mysql提供有distinct这个关键字来过滤掉多余的重复记录只保留一条，但往往只用它来返回不重复记录的条数，而不是用它来返回不重记录的所有值。其原因是distinct只能返回它的目标字段，而无法返回其它字段，这个问题让我困扰了很久，用distinct不能解决的话，我只有用二重循环查询来解决，而这样对于一个数据量非常大的站来说，无疑

mysql count和groupBy查询的数据不一致

toString的博客

07-10

4810

今天在关联查询数据的时候出现了select * 和select count(*) 的数据不一致的问题 select*查询的数据是一条，但是count（*）之后的数据为2条具体看下图： sql： SELECT * FROM t_goods goods LEFT JOIN t_goods_merchant gm ON gm.goods_id=goods.id LEFT JOIN t_...

MySQL/Hive

weixin_41675900的博客

04-09

1060

牛客每个人最近的登录日期（二）统计一下牛客每个用户最近登录是哪一天，用的是什么设备两个join，连接三个表 #1.先根据用户分组，查出每个用户登录的最新日期（一） select user_id,max(date) from login group by login.user_id; #2. 然后查出所有用户的名字，所有的登录设备，所有的登录日期（二） select user.name as u_n,client.name as c_n,login.date from login join use

hive中groupby优化_Hive的10种优化总结

weixin_39894233的博客

12-20

502

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列，分区裁剪就是只读取需要的分区。以我们的日历记录...

【Hive】count(distinct column) 为何效率低？

一个写湿的程序猿

09-17

2597

count（distinct column）为何效率低？问题？解决办法问题？统计一个按天分区，每天都有百亿条数据条的hive表中account字段的非重用户数（大概两千万）。后来又更改为按id字段分别统计每个id的用户数。很简单，直接count(distinct account)这个句子。然后写上了一行查询完成！然后等待了四个小时，map反着跑就知道肯定有问题。。 Hive SQL 基于的mapreduce是并行计算，百亿的数据可不是平时测试时的mysql里的几百条数据。这么想来应该是map和

mySQL和Hive的区别

iijik55的博客

09-11

737

深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则近万的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《Java开发全套学习资料》送给大家，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

count(distinct) 与group by 浅析

热门推荐

bitcarmanlee的博客

04-29

3万+

在传统关系型数据库中，group by与count(distinct)都是很常见的操作。count(distinct colA)就是将colA中所有出现过的不同值取出来，相信只要接触过数据库的同学都能明白什么意思。count(distinct colA)的操作也可以用group by的方式完成，具体代码如下：select count(distinct colA) from table1; selec

sql进阶「group by 和 distinct的异同」

lonelyhiker

01-06

441

在实际使用时，group by和distinct都可以实现单列去重及多列去重的功能，但在功能上，group by可以实现分组后的聚合功能；同时在执行层面上，group by会在多个reduce上并行执行，相比只在一个reduce上执行的distinct会快很多。

distinct、groupby、UNION、UNION ALL、count(1)、count(*) 、count(列名)

农夫三拳

04-07

1670

不同之处，distinct针对全部字段去重，而group by可以针对全部字段中的单一字段去重。 distinct主要是对数据两两进行比较，需要遍历整个表。 group by分组类似先建立索引再查索引，当数据量较大时，group by速度要优于distinct。

浅析Hive的group by和count（distinct）

DM_Source的博客

05-08

1万+

首先，Hive的group by和count（distinct）都是去除重复的数据，某种程度上来说，两者产生的结果是一样的。实例代码：select a,count(distinct b) from t group by aselect tt.a,count(b) from (select a,b from t group by a,b)tt group by tt.a 上面两...

Hive 调优 Group By 、Count（distinct）、笛卡尔积

大数据流浪法师的学习笔记与分享

11-28

1356

Group By 默认情况下，Map阶段同一Key数据分发给一个reduce，当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce端完成，很多聚合操作都可以先在Map端进行部分聚合，最后在Reduce端得出最终结果。开启Map端聚合参数设置（1）是否在Map端进行聚合，默认为True set hive.map.aggr = true; （2）在Map端进行聚合操作的条目...

Hive group by distinct性能调优

知之可否

03-13

2238

转自 http://sjq597.github.io/2016/04/24/Hive-group-by-distinct%E6%80%A7%E8%83%BD%E8%B0%83%E4%BC%98/ Hive去重统计相信使用Hive的人平时会经常用到去重统计之类的吧，但是好像平时很少关注这个去重的性能问题，但是当一个表的数据量非常大的时候，会发现一个简单的count(distinct order

mysql中group by和distinct对比

weixin_44845701的博客

06-26

2025

示例表： CREATE TABLE sbtest1 ( id int(11) NOT NULL AUTO_INCREMENT, k int(11) NOT NULL DEFAULT ‘0’, c char(120) NOT NULL DEFAULT ‘’, pad char(60) NOT NULL DEFAULT ‘’, PRIMARY KEY (id), KEY k_1(k) ) ENGINE...

针对使用group by分组后再统计结果和直接全部统计结果不一致的问题

健康平安的活着的专栏

05-01

8317

一说明：数据表如下： #以name字段分组统计，每个name字段有多少个不同的zhi值。然后再求和 select sum(tt.he) from ( select name,count(distinct zhi) as he from tb_fu group by name ) as tt union all #全量统计 zhi字段有多少个不同的值 sele...

mysql distinct group by_MySQL中distinct与group by语句的一些比较及用法讲解

weixin_36277197的博客

01-21

325

在数据表中记录了用户验证时使用的书目，现在想取出所有书目，用DISTINCT和group by都取到了我想要的结果，但我发现返回结果排列不同，distinct会按数据存放顺序一条条显示，而group by会做个排序(一般是ASC)。DISTINCT 实际上和 GROUP BY 操作的实现非常相似，只不过是在 GROUP BY 之后的每组中只取出一条记录而已。所以，DISTINCT 的实现和 GRO...

distinct和group by

weixin_37627734的博客

10-22

405

distinct的统计维度在他之后，如果在distinct后接count或者sum，统计出来的数据只会有一条，对比group by 统计维度也在他之后，不过可以搜索出多个维度的count或者sum。部门&金额维度：select sum(money),org from tst11 group by org,money;部门维度：select sum(money),org from tst11 group by org;第一个搜出来的结果是2，第二个搜出来的结果是3，1。

为什么用hive不用mysql呢

最新发布

06-29

### 数据分析中的 Hive 与 MySQL 的区别及使用场景在数据分析领域，Hive 和 MySQL 是两种不同类型的工具，各自适用于不同的场景。它们的核心差异体现在数据规模、处理方式、查询性能和应用场景等方面。 #### 数据规模与存储架构 Hive 构建于 Hadoop 生态系统之上，能够利用 HDFS 的分布式存储能力，支持 PB 级别的数据存储和处理[^1]。它适用于大规模结构化或半结构化数据的批处理任务，如日志分析、ETL 流程等。相比之下，MySQL 是传统的关系型数据库，适用于中小规模的数据集管理，通常用于事务性操作（OLTP）和低延迟的实时查询场景[^3]。 #### 查询性能与执行机制 Hive 的查询基于 MapReduce 或 Tez 执行引擎，适合离线分析任务，但查询延迟较高，通常不适用于实时响应。例如，一个简单的聚合查询可能需要数分钟才能完成。而 MySQL 使用内存索引和优化器技术，在小数据量下具有极高的查询性能，适合高并发、低延迟的 OLTP 场景，如订单管理系统、用户账户查询等[^3]。 #### 查询语言与扩展性 Hive 提供了类 SQL 的查询语言（HQL），语法接近标准 SQL，但在功能上更偏向于大数据分析需求，如分区表、分桶、复杂的数据转换等[^1]。此外，Hive 可以通过 UDF（用户自定义函数）进行功能扩展。MySQL 使用标准 SQL，其语法更为成熟，并且拥有丰富的索引类型、事务支持和锁机制，适用于复杂的业务逻辑控制[^3]。 #### 数据处理模式与适用场景 Hive 更适合批量处理、历史数据分析和数据仓库构建，常用于数据湖或数据仓库中的 ETL 过程，如日志清洗、用户行为分析、销售趋势预测等[^4]。例如： ```sql SELECT event_date, COUNT(DISTINCT user_id) AS active_users FROM user_activity_log GROUP BY event_date; ``` 上述查询适用于 Hive 的典型场景，即对海量数据进行统计汇总。而 MySQL 更适合实时查询、事务处理和高频更新操作，如电商平台的库存管理、用户登录记录等。例如： ```sql SELECT * FROM orders WHERE user_id = 12345; ``` 这类查询在 MySQL 中可以毫秒级响应，适合在线业务系统[^3]。 #### 数据集成与可视化支持 Hive 可以与 Sqoop、Flume、Spark 等工具集成，实现从关系型数据库到大数据平台的数据迁移与同步。同时，Hive 的分析结果可以通过导出到 MySQL 来支持前端可视化工具（如 Tableau、PowerBI）的展示[^4]。