【西瓜书阅读笔记】02模型评估与选择:一个训练集一种算法

1、经验误差与过拟合

(1)error rates错误率: E=a/m

(2)accuracy正确率= 1-E

(3)error=\left |Y-\widehat{Y} \right |

(4)Overfitting and underfitting

 2、评估方法

(1)泛化能力:测试集

(2)Split dataset:

留出法:

from sklearn.model_selection import cross_val_score, train_test_split
 testing_classes) = train_test_split(all_features, all_classes, train_size=0.75, random_state=1)
#random_state=1, 表示多次split的train和test一致

 K-fold cross validation:

https://blog.youkuaiyun.com/Checkmate9949/article/details/119785123第三点

自助法Bootstrap: 

 改变了初始数据集的分布,带来估计偏差。因此当数据集足够时,留出法和交叉验证法更加常用。

(3)Validation set 验证集:为了调参,防止前视偏差。

3、性能度量performance measure

(1)Mean squared error均方误差

E(f;D)=\frac{1}{m}\sum_{i=1}^{m}(f(x_{i}-y_{i})_{}^{2}

对于数据分布D和概率密度函数p(.)

E(f;D)=\int_{x~D}^{}(f(x)-y)^{2}p(x)dx

 (2)错误率与精度

E(f;D) = \frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(f(x_{i})\neq y_{i})

acc(f;D) = \frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(f(x)_{i}=y_{i})

(3) 查准率、查全率

1)混淆矩阵

 P: 我预测为真的,有多少对的?

R:真的中有多少被预测到的?

2)假阳性:acc失效

(4)P-R曲线:P与R反向变动

 Threshold阈值愈高,标准越高:P高,而R低;阈值越低:P低,而R高

Threshold右边表示预测为5的

(5)综合考虑P与R

1)Break-Even Point: 即P=R时取值

2)F1:P和R的调和平均

\frac{1}{F1}=\frac{1}{2}\cdot (\frac{1}{P}+\frac{1}{R})

(1/P + 1/R) = (TP+TP+FN+FP)/TP,再取倒数体现了TP所占的比例,使P与R的取值更合理。

3)F_beta加权调和平均数:

\frac{1}{F1}=\frac{1}{1+\beta^{2}}\cdot (\frac{1}{P}+\frac{1}{R})

 beta>1,查全率R影响更大;beta<1,查准率P影响更大。

(6)n个二分类实现的多分类问题

1)先分别计算混淆矩阵,再求均值

(P1,R1),(P2,R2),...,(Pn, Rn)

macro_P:\frac{1}{n}\sum_{i=1}^{n}P_{i}

macro_R: \frac{1}{n}\sum_{i=1}^{n}R_{i}

marco_F:\frac{2\times macro-P\times macro-R}{macro-P+macro-R}

2)先平均,再计算

\overline{TP}, \overline{FP},\overline{TN},\overline{FN}

micro\_P= \frac{\overline{TP}}{\overline{TP}+\overline{FP}}

micro\_R= \frac{\overline{TP}}{\overline{TP}+\overline{FN}}

micro\_F=\frac{2\times micro\_P\times micro\_R}{micro\_P+micro\_R}

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值