大数据下的Distinct Count（一）：序

原创已于 2023-06-01 10:57:19 修改 · 234 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

于 2016-03-29 13:51:00 首次发布

大数据见微专栏收录该内容

39 篇文章 ¥19.90 ¥99.00

订阅专栏

本文探讨了在大数据场景中如何进行Distinct Count操作，分别介绍了使用Hive、Pig和Spark的方法。在Hive中，通过HiveQL计算UV（Unique Visitor）；Pig利用DataFu的HyperLogLog++算法实现基数估计；Spark则通过RDD的转换和近似Distinct Count API，其中涉及到HyperLogLog算法的应用。

在数据库中，常常会有Distinct Count的操作，比如，查看每一选修课程的人数：

select course, count(distinct sid)
from stu_table
group by course;

Hive

在大数据场景下，报表很重要一项是UV(Unique Visitor)统计，即某时间段内用户人数。例如，查看一周内app的用户分布情况，Hive中写HiveQL实现：

select app, count(distinct uid) as uv
from log_table
where week_cal = '2016-03-27'

Pig

与之类似，Pig的写法：

-- all users
define DISTINCT_COUNT(A, a) returns dist {
    B = foreach $A generate $a;
    unique_B = distinct B;
    C = group unique_B all;
    $dist = foreach C generate SIZE(unique_B);
}
A = load '/path/to/data' using PigStorage() as (

了解本专栏