模型选择
– 怎么选择超参数
训练误差和泛化误差
- 训练误差:模型在训练数据上的误差
- 泛化误差:模型在新数据上的误差
! 我们关心的是泛化误差而非训练误差
验证数据集和测试数据集
- 验证数据集:用来评估模型好坏的数据集
- 例如拿出50%的训练数据
- 不要很训练数据混在一起(常犯错误)
- 测试数据集:只用一次的数据集
K-则交叉验证
- 在没有足够多数据时使用(这是常态)
- 算法
- 将训练数据分割成k块
- for i=1,…,k
- 使用第i块作为验证数据集,其余作为训练数据集
- 报告k个验证机误差的平均
- 常用:K=5或10
过拟合和欠拟合
– 关键在于估计模型容量
- 难以在不同的种类算法之间比较
- 如:树模型和神经网络
- 给定一个模型种类,将有两个主要因素
- 参数的个数
- 参数值的选择范围
VC维
统计学习理论的一个核心思想
-
对于一个分类模型,VC等于一个最大的数据集的大小,不管如何给定标号,都存在一个模型对他进行完美分类
-
支持N维输入的感知机的VC维是N+1
-
一些多层感知机的VC维 O ( N l o g 2 N ) O(Nlog_2N) O(Nlog2N)
-
VC维的用处
- 提供为什么一个模型好的理论依据
他可以衡量训练误差和泛化误差之间的间隔 - 但深度学习中很少使用
- 衡量不是很准确
- 计算深度学习模型的VC维很困难
- 提供为什么一个模型好的理论依据