训练集是有N个独立同分布的样本组成,即每个样本(x,y)是独立的从相同的分布中抽取的。这个真实的分布未知
输入空间X和输出空间Y构成样本空间,对于样本空间中的样本(x, y)∈X x Y,假定x和y之间可通过一个未知的真实隐射y=g(x)来描述,或者通过真实条件概率分布来描述。
1 期望风险
要评价模型f(x, θ)的好坏,可通过期望风险R(θ)来衡量:
回顾一下数学期望的含义,
期望E[X]的含义是随机变量x与概率密度函数f(x)相乘以后的积分
期望E[g(X)]的含义是随机变量的函数g(x)与概率密度函数f(x)相乘以后的积分
现在求R(θ),即损失函数

文章讨论了机器学习中评估模型性能的期望风险、经验风险及其关系。期望风险无法直接计算,因为真实分布未知,而经验风险是基于训练集的平均损失。当训练样本有限时,过拟合可能发生,为此引入了结构风险最小化,结合正则化防止模型过度拟合。
最低0.47元/天 解锁文章
&spm=1001.2101.3001.5002&articleId=131269097&d=1&t=3&u=f7b003683fd245cfbbd487f31e11f1b6)
797

被折叠的 条评论
为什么被折叠?



