【spark】六 DataFrame.summary() 中百分比统计探索

最新推荐文章于 2025-07-20 16:47:51 发布

百物易用是苏生

最新推荐文章于 2025-07-20 16:47:51 发布

阅读量4.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/u010720408/article/details/89921745

在分析账号登录异常阈值时，发现Spark DataFrame的summary()方法对于小数量异常值的处理不适用于百分比统计。由于summary()使用的是近似百分位数，而非累计百分比，导致无法直接得出期望的阈值。为解决这个问题，需要自定义实现累加百分比筛选方法，目前作者还在寻求解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在分析账号登陆异常的阈值分布取舍时，例如同phone每日登录次数分布，假定有1%、0.1%异常坏人，需要找个阈值切割点。

之前看到pandas的DataFrame有summary()，然后看spark的DataFrame也有，本以为可以很好的使用。

但是发现了一个问题，就是异常点的用户数都很小，造成条数很多，对ip_cnt的个数用阈值取0.1% 1% 5% 都是 ip_cnt=1,而且我也按 95%等，把数据弄到excel中进行累加分析，发现并不是累加的算出正好加到那个数值占总的百分比。

样例数据如下(登录多少次得ip有多少个)：

time	login_cnt	ip_cnt
190315	1	56422
190315	2	49422
190315	3	36422
190315	4	22422
……	……	……
190315	200	22
……	……	……
190315	400	2
……	……	……
190

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

百物易用是苏生

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

R语言描述性统计分析：使用summary函数获取dataframe数据中每个变量的常用统计量、对每个变量进行汇总统计

statistics+insight+vista+power

05-08

2050

R语言描述性统计分析：使用summary函数获取dataframe数据中每个变量的常用统计量、对每个变量进行汇总统计

spark 【scala and pyspark 】如何统计 Dataframe 列中的空值比例

shiter编写程序的艺术

01-13

2531

机器学习在进行数据预处理的时候，经常需要统计某一列的缺失值比例。这个功能，spark 有多种的实现方式，我们一起来看看。

参与评论您还未登录，请先登录后发表或查看评论

scala-spark练手--dataframe数据可视化初稿

weixin_30483495的博客

04-28

433

成品：http://www.cnblogs.com/drawwindows/p/5640606.html初稿： import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{Logging, SparkConf, SparkContext} import org.apache.spark.sql.{DataFr...

R语言使用skimr包的skim函数查看整个dataframe数据集的summary信息、统计汇总信息(Summarize a whole dataset)

data+scenario+science+insight

01-09

1454

R语言使用skimr包的skim函数查看整个dataframe数据集的summary信息、统计汇总信息(Summarize a whole dataset)

R语言使用summary函数查看dataframe数值型数据列的汇总统计信息

statistics+insight+vista+power

04-29

288

R语言使用summary函数查看dataframe数值型数据列的汇总统计信息

Spark SQL（二）：DataFrame APIs

YFater的博客

10-28

1145

文章目录一.输入与输出1.DataFrameReader.csv 一.输入与输出方法概述 DataFrameReader.csv(path[, schema, sep, …]) 加载一个CSV文件并以DataFrame的形式返回结果。 DataFrameReader.format(source) 指定输入数据源格式。 DataFrameReader.jdbc(url, table[, column, …]) 构造一个 DataFrame，它表示通过 JDBC URL 和连接属性可

pyspark dataframe求均值，排序

weixin_45890762的博客

05-20

2804

Pyspark dataframe 进行求均值和排序

10、Spark SQL：DataFrame与Dataset操作全解析

最新发布

cream的博客

07-20

本文深入解析了 Spark SQL 中的 DataFrame 和 Dataset 操作，涵盖了常见的转换操作、缺失数据处理、基本统计信息获取以及结构化操作等内容。同时详细介绍了 Dataset 的强类型特性及其与 DataFrame 的区别，并提供了综合应用示例和最佳实践建议，帮助读者更高效地处理和分析结构化数据。

pyspark学习

weixin_45621200的博客

06-15

345

pyspark学习入门

R语言使用summary函数计算dataframe中所有数据的最小值、25%分位数、中位数、75%分位数、最大值

statistics+insight+vista+power

10-28

1533

R语言使用summary函数计算dataframe中所有数据的最小值、25%分位数、中位数、75%分位数、最大值

使用R语言的`summary`函数查看数据框的属性描述信息

PixelLogic的博客

08-26

693

数据框（dataframe）是R语言中最常用的数据结构之一，它以表格的形式存储数据，并且每一列可以是不同的数据类型。在数据分析和数据处理的过程中，了解数据的属性描述信息是非常重要的，例如，数据的最小值、最大值、均值、中位数等统计指标。函数提供了最小值（Min.）、第一四分位数（1st Qu.）、中位数（Median）、均值（Mean）、第三四分位数（3rd Qu.）和最大值（Max.）的值。变量中有2个类别（Female和Male），Female类别出现了2次，Male类别出现了3次。

python中summary_Pyspark:如何实现dataframe descripe（）和summary（）呢

weixin_39922534的博客

12-07

583

def summary(ds: Dataset[_], statistics: Seq[String]): DataFrame = {val defaultStatistics = Seq("count", "mean", "stddev", "min", "25%", "50%", "75%", "max")val selectedStatistics = if (statistics.nonE...

数据挖掘工具pandas（五）DataFrame的常用统计方法

TFATS的博客

05-22

2072

一，单个函数 max、min、idxmin、idxmax、mean、std import pandas as pd import numpy as np day_data = np.random.normal(0,1,(500,507)) stock_list = ["股票"+ str(i) for i in range(day_data.shape[0])] date = ["第"+ str(i)+"天" for i in range(day_data.shape[1])] df = pd.Data

Pandas中DataFrame基本函数整理

木柘的博客

08-17

1663

构造函数 DataFrame([data, index, columns, dtype, copy]) #构造数据框属性和数据 DataFrame.axes #index: 行标签；columns: 列标签 DataFrame.as_matrix([columns]) #转换为矩阵 DataFrame...

Spark数据统计指标计算

SunnyRivers

05-15

6077

前言在机器学习训练模型时，如果遇到空值，一般有三种处理方法，分别是删除法、替换法和插补法。删除法是指当缺失的观测比例非常低时（如5%以内），直接删除存在缺失的观测，或者当某些变量的缺失比例非常高时（如85%以上），直接删除这些缺失的变量；替换法是指用某种常数直接替换那些缺失值，例如，对连续变量而言，可以使用均值或中位数替换，对于离散变量，可以使用众数替换；插补法是指根据其他非缺失的变量或观测来预...

spark学习之sparksql中dataframe的常用函数

Carnation_s的博客

10-11

3496

SparkSql-DataFrame 一、DataFrame的相关方法 1、show 作用：展示数据 show(numRows:Int,truncate:Boolean) show(numRows:Int) numRows：表示展示的行数（默认展示20行） Truncate:只有两个取值true,false,表示一个字段是否最多显示20个字符，默认为true 2、collect 作用：获取一个dataframe的里面的数据形成的是一个数组注意：返回的是一个array 适用于数据量比较小的场景

python dataframe详细使用方法