目标函数:经验损失(损失函数)和结构化损失(正则项)都做了些什么?

机器学习策略解析


越学越糊涂,忘了各个模块存在的初衷,也还是没完全弄清“损失函数、目标函数、经验风险、期望风险、结构风险、泛化、方差、偏差”等概念以及直观上的作用。李航说机器学习有三要素:模型、策略和算法(统计学方法=模型+策略+算法),这里主要就对“策略”这块做一个简短的概念上的小结,思路如下:先说框架再说作用以及朴素的理解。

1. 概念

损失函数:度量模型一次预测的好坏
风险函数:度量 平均意义下模型预测的好坏

经验损失/经验风险 = 关于训练集的平均损失
期望损失/期望风险 = 关于**联合分布(未知)**的平均损失

2. 框架

2.1 理想/标准状态:

假设函数 = 决策函数y = f(x) 或者 条件概率分布p(y|x)
学习目标 = 选择期望风险最小的模型

目标函数 = 风险函数(或期望损失)

2.2 实际情况:

目标函数 = 经验风险 + 正则项 = 结构风险———近似拟合———> 风险函数(或期望损失)

经验风险 = 有限数据集上的经验损失
结构风险 = 经验风险 + 正则项

3. 作用和朴素理解

假设函数: 所有可能模型的集合(“所有可能”的意思是我知道输出和输入是线性关系,那么假设函数则是那无限个可能的线性模型的集合)。说大白话,就是将所有可能的模型放在一起,以供选择。模型的集合(假设函数)可以用两种方式来表示:①输入空间的变量 x 和输出空间的变量 y 所组成的决策函数集合 y

在脑影像基因组学研究中,含正则化项的损失函数具有多方面重要应用: ### 特征选择与降维 脑影像基因组数据通常具有高维度的特点,包含大量特征,但其中很多特征可能是冗余的或者对模型预测没有实质贡献。含正则化项的损失函数能够帮助进行特征选择降维。例如,L1 正则化(也称为 Lasso 正则化)可以使得模型的某些系数变为零,从而筛选出对目标变量有显著影响的特征。在脑影像基因组学中,这有助于识别出与脑部疾病相关的关键影像特征基因标记,减少数据维度,提高模型的解释性泛化能力。 ```python from sklearn.linear_model import Lasso import numpy as np # 假设 X 是脑影像基因组的特征矩阵,y 是目标变量(如疾病状态) X = np.random.rand(100, 20) y = np.random.randint(0, 2, 100) # 使用 Lasso 回归进行特征选择 lasso = Lasso(alpha=0.1) lasso.fit(X, y) # 查看哪些特征的系数变为零 selected_features = lasso.coef_ != 0 print(selected_features) ``` ### 防止过拟合 脑影像基因组数据的样本数量相对较少,而特征维度较高,这使得模型容易出现过拟合的问题。正则化项通过对模型的复杂度进行惩罚,限制模型参数的取值范围,从而防止模型在训练数据上过度拟合,提高模型在未知数据上的泛化能力。例如,L2 正则化(也称为 Ridge 正则化)会使得模型的参数值变小,但不会使其变为零,通过对参数的平方进行惩罚,使得模型更加平滑,减少噪声对模型的影响。 ```python from sklearn.linear_model import Ridge import numpy as np # 假设 X 是脑影像基因组的特征矩阵,y 是目标变量(如疾病状态) X = np.random.rand(100, 20) y = np.random.randint(0, 2, 100) # 使用 Ridge 回归防止过拟合 ridge = Ridge(alpha=0.1) ridge.fit(X, y) # 预测新数据 new_X = np.random.rand(10, 20) predictions = ridge.predict(new_X) print(predictions) ``` ### 多模态数据融合 脑影像基因组学研究涉及到多种模态的数据,如结构磁共振成像(sMRI)、功能磁共振成像(fMRI)基因表达数据等。不同模态的数据具有不同的特征分布,在融合这些数据时,含正则化项的损失函数可以帮助平衡不同模态数据对模型的贡献,使得模型能够更好地整合多模态信息。例如,可以在损失函数中为不同模态的数据设置不同的正则化参数,以调整各模态数据在模型训练中的权重。 ### 提高模型稳定性 正则化项可以使得模型的参数估计更加稳定,减少数据中的噪声异常值对模型的影响。在脑影像基因组学研究中,数据采集过程中可能会受到各种因素的干扰,导致数据存在噪声异常值。含正则化项的损失函数可以通过对模型参数的约束,使得模型对这些噪声异常值具有一定的鲁棒性,提高模型的稳定性可靠性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值