机器学习PRML--第一章学习问题总结

本文介绍了机器学习中多项式曲线拟合的问题,探讨了欠拟合与过拟合的解决方案,包括增加数据、正则化项等。训练阶段旨在优化模型参数,模型选择关乎最佳假设函数。信息论用于决定特征重要性,正则化项如2-范数有助于防止过拟合。维度灾难与过拟合有关,可能导致测试集表现不佳,而计算量的增加也是问题之一。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、每小节的顺序可以交换吗?它们是相互独立的关系还是层层递进的关系?

不可以,本章以多项式曲线拟合为例,主要需要确定的参数是w和M

从它们是层层递进的关系。

 

2、多项式拟合的例子可以扩展为一般机器学习的流程吗?

可以。需要注意的是:多项式拟合有两个问题:一个是欠拟合,一个是过拟合,对于欠拟合我们只需要增加参数(或者说特征)是拟合更加好,对于过拟合,我们提到了两种方式来解决,一个是增加数据,通过增加数据的方式增加引入更多的特征从而减少过拟合,另一种是增加正则化项。

 

3、机器学习训练阶段的目的是训练出什么?

训练出特征以及其权重

(1)训练其实就是一个优化过程,提出一种模型,已知一组数据,定义一种代价函数或者叫损失函数,然后用数学方法得到使得代价函数或损失函数最小的过程,也可以理解为优化参数

(2)如何确定参数,使得优化目标最优化。即:不断地试错,直至最优

(3)一个模型中,有很多参数。有些参数,可以通过训练获得,比如logistic模型中的权重。但有些参数,通过训练无法获得,被称为”超参数“,比如学习率等。这需要靠经验,过着grid search的方法去寻找。

 

4、模型选择的选择的是什么?

M,通过不断实验确定最佳的模型,做出最优分类

训练之后,便可以确定这些参数,这些参数确定的假设空间中的某一假设函数便是所谓的模型~

 

5、信息论在机器学习中的作用是什么?

决定信息的重要性(决定优先选择哪个特征)

 

6、改进的纠错函数加上一项正则化项(w的2-范数)有什么作用?

2-范数降低了一些特征的权重,有些权重可能为0,又可以将其作为补偿。

7、关于维度灾难的问题

(1)维度灾难是什么?

文中提出了维度灾难以后,又提出了一般由于输入数据的平滑性可以避免维度灾难,目的是说明在实践应用当中我们需要考虑到维度灾难的问题。那么什么是维度灾难呢?

分类器的性能随着特征个数(M)的变化不断增加,过了某一个值后,性能不升反降。这里的某一个值到底是多少呢?目前,还没有方法来确定分类问题中的这个阈值是多少,这依赖于训练样本的数量,决策边界的复杂性以及分类器的类型。理论上,如果训练样本的数量无限大,那么就不会存在“维数灾难”,我们可以采用任意多的特征来训练分类器。事实上,训练样本的数量是有限的,所以不应该采用过多的特征。

映射到低维空间其结果就相当于过拟合。

(http://www.cnblogs.com/datahunter/p/3808252.html)

(2)维度灾难测试集效果不好,为什么不好?训练集效果好?过拟合训练集效果不好,测试集效果好?

测试效果不好,主要原因是类似于过拟合问题,即使训练样本能够完美分类,可是测试样本会产生很大的误差。

(3)维度灾难与过拟合有没有必然联系?维度灾难导致过拟合,过拟合不一定能导致维度灾难?

有联系,维度灾难会导致过拟合,但是过拟合不会导致维度灾难。

(4)维度灾难到底是不是计算量问题?

是的,如果一直增加特征维数,由于样本分布越来越稀疏,如果要避免过拟合的出现,就不得不持续增加样本数量。

以上问题的主要是根据自己的理解得到的,可能不一定都准确。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值