Hive千分位函数percentile()和percentile_approx()

最新推荐文章于 2025-09-23 20:28:46 发布

原创最新推荐文章于 2025-09-23 20:28:46 发布 · 1.3w 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Hadoop 专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了percentile和percentile_approx函数的使用方法，包括参数解释、精度控制及实例演示，帮助读者理解如何在数据分析中求取不同分位数。

percentile函数和percentile_approx函数

percentile(col, p)     p∈(0,1)

传入两个参数，第一个参数类型必须是int，一般是某一列的数据，返回的是col列的第p分位的值。

percentile_approx(col,p,B)   p∈(0,1)

传入三个参数，col列是数值类型都可以，B用来控制内存消耗的精度。实际col中distinct的值<B返回的时精确的值。

参数B控制内存消耗的近似精度，B越大，结果的准确度越高。默认为10000。当col字段中的distinct值的个数小于B时，结果为准确的百分位数。

例子

percentile_approx(col, 0.1)

percentile(col, 0.1)

就相当于col列上第10%的那个值

要求多个分位数时，可以把p换为array()

percentile_approx(col,array(0.1,0.2,0.3),9999) 或 percentile_approx(cast(col as double),array(0.05,0.5,0.95),9999）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。