机器学习周志华第二章课后答案。(参考)

本文探讨了10折交叉验证及留一法在不同情况下的错误率表现,揭示了查全率、真正例率、查准率及假正例率的概念与区别,帮助读者深入理解模型评估的重要指标。

10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是50%。

留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。

两者没有直接的关系。

查全率: 真实正例被预测为正例的比例 
真正例率: 真实正例被预测为正例的比例 
显然查全率与真正例率是相等的。

查准率:预测为正例的实例中真实正例的比例 
假正例率: 真实反例被预测为正例的比例 
两者并没有直接的数值关系。

5.试证明

 

 

 

 

### 关于《机器学习第二章模型评估选择 在探讨周志华所著《机器学习》一书中第二章的内容,重点在于理解不同评价指标以及如何基于这些度量标准挑选最优模型。本章节深入讨论了多种性能衡量方法及其应用场景。 #### 性能度量的重要性 为了有效对比各类算法的表现并选出最适合特定任务的方案,必须依赖可靠的性能度量工具。常见的分类器性能测量方式包括混淆矩阵、精度(Precision)、召回率(Recall),也称为查全率(R)[^4]。通过引入真正例(TP)、假正例(FP)的概念,可以更精确地描述预测结果的质量。 #### 模型的选择策略 当面临多个候选模型,除了考量训练集上的表现外,还需要重视其泛化能力,即能否良好适应未见过的数据。交叉验证是一种常用的技术手段,能够帮助估计模型的真实误差范围,并减少过拟合的风险[^1]。 ```python from sklearn.model_selection import cross_val_score, KFold from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier # 加载数据集 data = load_iris() X, y = data.data, data.target # 定义决策树分类器 clf = DecisionTreeClassifier() # 使用K折交叉验证评估模型 kf = KFold(n_splits=5) scores = cross_val_score(clf, X, y, cv=kf) print(f'Cross-validation scores: {scores}') ``` 上述代码展示了利用`scikit-learn`库实现简单的五折交叉验证过程,适用于任何给定的学习器实例。 #### 查准率查全率的关系 查准率(Precision)反映了被检索出来的文档中有多少是相关的;而查全率(Recall)则表示所有相关文档中有多少比例被成功找到。两者之间存在权衡关系,在实际应用中需根据需求调整侧重点。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值