机器学习(Machine Learning)
简要声明
基于吴恩达教授(Andrew Ng)课程视频
BiliBili课程资源
二、代价函数与参数优化
2. 平方误差代价函数
数学定义
J
(
w
,
b
)
=
1
2
m
∑
i
=
1
m
(
y
^
(
i
)
−
y
(
i
)
)
2
J(w,b) = \frac{1}{2m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)})^2
J(w,b)=2m1i=1∑m(y^(i)−y(i))2
- 作用:量化模型预测误差,评估参数 w w w和 b b b的优劣
- 特性:
- 凸函数(碗状曲面),保证梯度下降收敛到全局最小值
- 乘
1
2
\frac{1}{2}
21便于求导,避免系数过大影响优化
优化目标与补充
- 最小化策略:通过调整
w
w
w和
b
b
b使
J
(
w
,
b
)
J(w,b)
J(w,b)最小。其偏导数可推导为:
∂ J ∂ w = 1 m ∑ i = 1 m ( y ^ ( i ) − y ( i ) ) x ( i ) \frac{\partial J}{\partial w} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)})x^{(i)} ∂w∂J=m1i=1∑m(y^(i)−y(i))x(i)
∂ J ∂ b = 1 m ∑ i = 1 m ( y ^ ( i ) − y ( i ) ) \frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^m (\hat{y}^{(i)} - y^{(i)}) ∂b∂J=m1i=1∑m(y^(i)−y(i))
该梯度公式为梯度下降提供参数更新方向
代价函数对比分析
函数类型 | 公式 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|
均方误差 (MSE) | 1 2 m ∑ ( y ^ − y ) 2 \frac{1}{2m}\sum (\hat{y}-y)^2 2m1∑(y^−y)2 | 数学性质优良,便于求导优化 | 对异常值敏感 | 线性回归、温度预测 |
平均绝对误差 (MAE) | 1 m ∑ ∣ y ^ − y ∣ \frac{1}{m}\sum |\hat{y}-y| m1∑∣y^−y∣ | 对异常值鲁棒性强 | 导数不连续,优化困难 | 稳健性要求高的场景 |
Huber损失 | { 1 2 ( y ^ − y ) 2 if ∣ y ^ − y ∣ ≤ δ δ ( ∣ y ^ − y ∣ − δ 2 ) 其他 \begin{cases} \frac{1}{2}(\hat{y}-y)^2 & \text{if } |\hat{y}-y| \leq \delta \\ \delta(|\hat{y}-y| - \frac{\delta}{2}) & \text{其他} \end{cases} {21(y^−y)2δ(∣y^−y∣−2δ)if ∣y^−y∣≤δ其他 | 平衡MSE和MAE优点 | 需调整超参数 δ \delta δ | 含噪声数据的回归任务 |
优化方法选择
- 批量梯度下降:使用全量数据计算梯度,收敛稳定但计算量大
- 随机梯度下降:单样本更新参数,计算高效但噪声大
- 小批量梯度下降:折中方案(常用批量大小32-256),兼具效率和稳定性
注:
噪声(Noise):指数据中与真实模式或规律无关的随机变化或错误信息。
鲁棒性(Robustness):指模型或系统在面对数据中的噪声、异常值、分布变化或其他干扰时,仍然能够保持良好性能的能力。简单来说,鲁棒性衡量的是一个模型在面对不确定性或不完美数据时的稳定性和可靠性。
continue…