Spark MLlib求解机器学习Precision, Recall, F1值 (Java代码)

最新推荐文章于 2024-09-19 14:09:34 发布

wendaocp

最新推荐文章于 2024-09-19 14:09:34 发布

阅读量971

点赞数

CC 4.0 BY-SA版权

分类专栏： AI / BigData / Cloud 文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/wendaocp/article/details/106304659

Spark MLlib求解Precision, Recall, F1 使用Java

Maven依赖
使用的核心类
理论准备
- Precicion, Recall, F1
Java代码
回到发放信用卡问题上
用到的数据集
参考

Maven依赖

 <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-core_2.11</artifactId>
     <version>2.2.0</version>
 </dependency>
 <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-sql_2.11</artifactId>
     <version>2.2.0</version>
 </dependency>
 <dependency>
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-mllib_2.11</artifactId>
     <version>2.2.0</version>
 </dependency>

使用的核心类

org.apache.spark.mllib.evaluation.BinaryClassificationMetrics

理论准备

在机器学习中的二分类问题，仅仅使用accuracy不足够准确和足以度量模型，尤其是当数据集正负样本不均衡时。
例子：
银行对用户分类为二类即信用好和差，来进行发放信用卡。
那么即使不做数据挖掘，而是直接判定所有用户的信用都是好的，那么accuracy也是够高的。
但是很显然，银行对信用差的用户更加在意，需要对这少数群体更慎重划分。