《机器学习》之《模型评估与选择》作业

模型评估与选择：划分方式、指标关系与ROC曲线分析

原创已于 2023-02-21 09:42:33 修改 · 550 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能

于 2022-10-22 11:03:49 首次发布

机器学习专栏收录该内容

11 篇文章

订阅专栏

本文探讨了在《机器学习》中模型评估与选择的相关概念。数据集包含1000个样本，通过留出法评估，估算出有约2.986×10^26种不同的训练和测试集划分方式。介绍了真正例率（TPR）、假正例率（FPR）、查准率（P）和查全率（R）之间的关系，指出TPR与R相等，而FPR与P无直接关系。同时，讨论了错误率与ROC曲线的关系，ROC曲线展示了模型在不同阈值下的性能，而错误率是固定阈值下的错误样本比例。

《机器学习》之《模型评估与选择》作业

《机器学习》之《模型评估与选择》作业

《机器学习》之《模型评估与选择》作业

数据集包含1000个样本，其中500个正例、500个反例，将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估，试估算共有多少种划分方式？

留出法评估直接将数据集随机划分为两个互斥的集合。

按照题意，70%样本作为训练集，30%样本作为测试集。

于是，根据分层采样原则，我们从500个正例中拿出350个作为训练集，剩下150个作为测试集；对于500个反例，我们也这样划分。

划分方式的总数= $C_n^m×C_n^m$ ，其中 $n$ =500， $m$ =350，使用Matlab的nchoosek函数计算组合数，[nchoosek(500,350)]²≈2.9859×10²⁶²。

试述真正例率（TPR）、假正例率（FPR）与查准率（P）、查全率（R）之间的关系

首先我们要了解混淆矩阵，如下表所示：

真实情况	预测结果
真实情况	正例	反例
正例	TP(真正例)	FN(假反例)
反例	FP(假正例)	TN(真反例)

然后得到真正例率、假正例率、查准率、查全率的概念和公式：

真正例率：真实正例被预测为正例的比例
假正例率：真实反例被预测为正例的比例
查准率：又叫精准率，预测为正例的实例中真实正例的比例
查全率：又叫召回率，真实正例被预测为正例的比例

指标	公式
真正例率	$TPR=\frac{TP}{TP+FN}$
假正例率	$FPR=\frac{FP}{FP+TN}$
查准率	$P=\frac{TP}{TP+FP}$
查全率	$R=\frac{TP}{TP+FN}$

显然，真正例率（TPR）和查全率（R）是相等的。而假正例率（FPR）和查准率（P）并没有直接的数值关系。

试述错误率与ROC曲线之间的关系

错误率：错分样本占全部样本的比例。

错误率的计算公式： $E=\frac{FN+FP}{TP+FN+FP+TN}=1-\frac{TP+TN}{TP+FN+FP+TN}$

ROC曲线以假正例率（FPR）为横轴，以真正例率（TPR）为纵轴，表示了模型在不同截断点取值下的泛化性能。

错误率是在阈值固定的情况下得出的，ROC曲线是在阈值随着样本预测值变化的情况下得出的。ROC曲线上的每一个点，都对应着一个错误率。

ROC中越接近(1,0)点的越完美，常常需要计算错误率实现查准率（P）和查全率（R）的折中，而P、R则反映了我们所侧重部分的错误率。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UestcXiye 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。