【spark】六 DataFrame.summary() 中百分比统计探索

在分析账号登录异常阈值时,发现Spark DataFrame的summary()方法对于小数量异常值的处理不适用于百分比统计。由于summary()使用的是近似百分位数,而非累计百分比,导致无法直接得出期望的阈值。为解决这个问题,需要自定义实现累加百分比筛选方法,目前作者还在寻求解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在分析账号登陆异常的阈值分布取舍时,例如同phone每日登录次数分布,假定有1%、0.1%异常坏人,需要找个阈值切割点。

之前看到pandas的DataFrame有summary(),然后看spark的DataFrame也有,本以为可以很好的使用。

但是发现了一个问题,就是异常点的用户数都很小,造成条数很多,对ip_cnt的个数用阈值取0.1% 1% 5% 都是 ip_cnt=1,而且我也按 95%等,把数据弄到excel中进行累加分析,发现并不是累加的算出正好加到那个数值占总的百分比。

样例数据如下(登录多少次得ip有多少个):

time login_cnt ip_cnt
190315 1 56422
190315 2 49422
190315 3 36422
190315 4 22422
…… …… ……
190315 200 22
…… …… ……
190315 400 2
…… …… ……
190
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值