12、统计学习相关知识与应用

统计学习相关知识与应用

1. 曲线下面积(AUC)相关指标

在数据分析中,有两种重要的可视化曲线用于评估模型性能,分别是接收者操作特征曲线(ROC)和精确率 - 召回率曲线(PR)。
- ROC曲线 :基于真阳性率(TPR,即召回率)和假阳性率(FPR)。当AUC值为1时,模型是最优的,此时FPR为0且召回率为1;若AUC值小于0.5,则不建议使用该模型。该指标在需要避免假阳性时很有用,但它会受到实际负样本数量的影响,在数据不平衡时,容易获得较高的ROC - AUC值,这使得该指标的吸引力降低。
- PR曲线 :同样,值为1代表最优模型,值为0.5代表不可用模型。召回率即TPR,精确率即PPV。该曲线完全不考虑真阴性样本,因此在真阴性样本无关紧要的情况下,是一个很好的指标,尤其适用于数据不平衡的情况。

2. 描述性统计

我们以房屋价格的业务场景为例来介绍描述性统计。
- 数据探索
- 数据获取 :可以从ywchiu的GitHub仓库获取房屋数据,使用R语言代码如下:

root <- 'https://raw.githubusercontent.com/'
folder <- 'ywchiu/riii/master/data/'
fn <- 'house-prices.csv'
H <- read.csv(paste0(root,folder,fn))
<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值