spark AUC 计算实现(Scala)

最新推荐文章于 2023-04-06 10:50:46 发布

原创

最新推荐文章于 2023-04-06 10:50:46 发布 · 7.5k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#Spark #Scala #AUC #预测 #推荐

假设预测值的RDD为pred

实际真实值的RDD为realVal

我们计算AUC的公式为：

则AUC的计算可以按如下代码实现：

def aucCal(pred:RDD[(Long,Double)],realVal:RDD[(Long,Double)]):Double={

//join 操作

val pre=pred.zipWithIndex

val label=realVal.zipWithIndex
val combPair=pre.join(label)

//计算正样本的ran

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bianzhicool

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

scala-sparkML学习笔记：scala解析json文件

MachineLP的专栏

08-30

1473

在搭建一些工程项目时，往往需要有配置文件，而配置文件很多是基于json格式组织的。这里可直接看代码： import scala.util.parsing.json.JSON._ import scala.io.Source object XMLHelloWorld { def main(args: Array[String]): Unit = { def regJson...

广告推荐算法（group auc）评价指标及Spark实现代码

Littleree的博客

01-02

1056

我们曾经有这样的疑惑，那就是训练样本，AUC得到提升。当将新模型放到线上后，却发现实际效果却没有老模型好，这时候很多人就开始疑惑了。在机器学习算法中，很多情况我们都是把auc当成最常用的一个评价指标，而auc反映整体样本间的排序能力，但是有时候auc这个指标可能并不能完全说明问题，有可能auc并不能真正反映模型的好坏，以CTR预估算法(推荐算法一般把这个作为一个很重要的指标)为例，把用户点击的样本当作正样本，没有点击的样本当作负样本，把这个任务当成一个二分类进行处理，最后模型输出的是样本是否被点击的概

1 条评论您还未登录，请先登录后发表或查看评论

Spark上如何做分布式AUC计算

Unicorn

01-15

9487

by 王犇 20160115 AUC是分类模型常用的评价手段，目前的Spark mllib里面evaluation包中所提供的auc方法是拿到了roc曲线中的各个点之后再进行auc的计算，但是实际应用场景中（以逻辑回归为例），我们常常是对每个样本进行打分之后整合样本的label直接进行auc的计算，输入可能是（label, predict_score）这样的形式，mllib中提供的方案就不太适用

关于AUC计算公式推导

BUPT-WT的博客

04-08

4448

sql 计算auc

weixin_30700099的博客

04-02

811

https://tracholar.github.io/machine-learning/2018/01/26/auc.html select (ry - 0.5*n1*(n1+1))/n0/n1 as aucfrom( select sum(if(y=0, 1, 0)) as n0, --50 sum(if(y=1, 1, 0)) as n1,--100...

Spark - AUC、Accuracy、Precision、Recall、F1-Score 理论与实战

BITDDD小栈

04-06

2066

Spark AUC、Accuracy、Precision、Recall、F1-Score 理论与实战。

Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐

06-26

1万+

Spark大数据分析与实战：基于Spark MLlib 实现音乐推荐基于Spark MLlib 实现音乐推荐一、实验背景：熟悉 Audioscrobbler 数据集基于该数据集选择合适的 MLlib 库算法进行数据处理进行音乐推荐（或用户推荐）二、实验目的：计算AUC评分最高的参数利用AUC评分最高的参数，给用户推荐艺术家对多个用户进行艺术家推荐利用AUC评分最高的参数，给艺术家推荐喜欢他的用户三、实验步骤：安装Hadoop和Spark 启动Hadoop与Spark 将文件上传到

SparkFM:一个使用Apache Spark实现分解工厂并行化的实验

05-25

总结来说，SparkFM是一个利用Apache Spark实现的分解机并行化工具，通过Scala编程语言充分利用Spark的分布式计算优势，解决了大规模数据下分解机训练的挑战。其在数据预处理、模型训练、评估和预测等阶段都体现了...

AUC的三种计算方法及代码

热门推荐

November、Chopin

11-11

2万+

AUC的计算方法

二分类模型评价指标-Scala实现

此心安处是吾乡

03-25

1529

本文主要使用Scala计算二分类模型的评价指标，包括以下内容： precision、recall、F1Score accuracy AUC KS 对上述指标计算方法进行封装，方便调用。传入参数为预测的数据框构造数据简单的构造数据，得到预测的DataFrame，其包含预测的概率、label和真实的label。 import org.apache.spark.ml.{Model, Pipeli...

模型评价(一) AUC大法

weixin_34148340的博客

07-29

2318

问题： AUC是什么 AUC能拿来干什么 AUC如何求解（深入理解AUC） AUC是什么混淆矩阵(Confusion matrix) 混淆矩阵是理解大多数评价指标的基础，毫无疑问也是理解AUC的基础。丰富的资料介绍着混淆矩阵的概念，这里用一个经典图来解释混淆矩阵是什么。显然，混淆矩阵包含四部分的信息： True negative(...

spark mllib源码分析之二分类逻辑回归的评价指标

snaillup的博客

08-01

4924

介绍spark中二分类的评价指标及实现，包括AUC，召回率，F-measure等

spark scala 训练xgboost模型，输出测试集AUC、precison、recall、f1-score

lixunxie的专栏

05-15

1731

spark scala 训练xgboost模型，输出测试集AUC、precison、recall、f1-score 使用的数据集链接：训练集 https://alink-release.oss-cn-beijing.aliyuncs.com/data-files/adult_train.csv 测试集 https://alink-release.oss-cn-beijing.aliyuncs.com/data-files/adult_test.csv 直接上代码： import bree

Spark Machine Learning 05 Spark构建分类模型

weixin_33827731的博客

05-04

315

Spark 构建分类模型在分类模型中，我们期望根据一组特征来判断类别，这些特征代表了物体、事件或上下文相关的属性（变量）。二分类多分类分类是监督学习的一种形式我们用带有类标记 or 类输出的训练样本训练模型（也就是通过输出结果监督被训练的模型）。分类模型适用于很多情形，一些常见的例子如下：预测互联网用户对在线广告的...

ROC和AUC介绍以及如何计算AUC

wsq520521的专栏

11-18

1943

ROC和AUC介绍以及如何计算AUC June 22, 2013 ROC（Receiver Operating Characteristic）曲线和AUC常被用来评价一个二值分类器（binary classifier）的优劣，对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点，以及更为深入地，讨论如何作出ROC曲线图以及计算AUC。 ROC曲线需要提前说明的是，我们这里只讨论二

AUC计算方法总结

渣渣

01-20

3943

在机器学习的分类问题中，尤其是二分类问题中，常常需要有评判标准，那么在这些评判标准中，最常用的就是准确率、召回率、ROC和AUC。其中，在实际使用中，我们往往使用AUC作为评判标准，那么如何计算AUC就是非常重要的。在常见的方法中，最常用的就是通过计算ROC，然后计算ROC下与X轴围成的面积作为AUC的值，但是这种方法非常简单，不会用于实际计算中。所以我们需要另外寻找方法来计算。那么，这就出现...

利用Apache Spark进行航班延误预测

描述 "使用Apache Spark预测航班延误" 提供了文档所关注的具体技术，即使用Apache Spark框架来实现航班延误的预测。Apache Spark是一个快速、通用、可扩展的分布式数据处理平台，它提供了一个高级的API，允许用户...