【深度学习】关键技术-损失函数（Loss Function）

原创已于 2025-07-07 09:04:55 修改 · 908 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

于 2025-01-17 09:25:02 首次发布

人工智能同时被 3 个专栏收录

121 篇文章

订阅专栏

机器学习

104 篇文章

订阅专栏

深度学习

32 篇文章

订阅专栏

损失函数（Loss Function） 是机器学习和深度学习模型训练过程中的核心概念，用于度量模型的预测输出与真实标签之间的差异。通过最小化损失函数的值，模型可以逐步优化其参数，提高预测性能。

损失函数的作用

衡量模型性能：反映模型当前的预测能力，误差越小，模型越好。
指导参数优化：通过梯度下降等优化算法，依据损失函数值的变化方向更新参数。
选择适合的训练目标：不同任务（分类、回归等）需要不同的损失函数。

常见的损失函数

1. 回归问题

均方误差（Mean Squared Error, MSE）：
- 用途：适用于连续值预测问题，如房价预测。
- 特点：对大误差较敏感。
平均绝对误差（Mean Absolute Error, MAE）：
- 用途：适用于回归问题。
- 特点：对离群值的影响较小，但不可微分。
Huber 损失：
- 用途：结合了 MSE 和 MAE 的优点，对离群值不敏感。
- 特点：适用于对异常值具有鲁棒性的场景。

2. 分类问题

交叉熵损失（Cross-Entropy Loss）：
- 二分类： $\text{Loss} = - \frac{1}{n} \sum_{i=1}^{n} \left[y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)\right]$
- 多分类： $\text{Loss} = - \frac{1}{n} \sum_{i=1}^{n} \sum_{j=1}^{C} y_{ij} \log(\hat{y}_{ij})$
- 用途：适用于分类任务，如图像分类、文本分类。
- 特点：对概率分布建模效果显著。
KL 散度（Kullback-Leibler Divergence）：
- 用途：用于衡量两个概率分布之间的差异。
- 特点：常用作正则化项，结合交叉熵。

3. 其他任务

对比损失（Contrastive Loss）：
- 用途：用于对比学习、匹配问题。
- 特点：区分正负样本对。
生成对抗网络（GAN）的损失：
- 生成器损失： $\text{Loss}_G = -\log(D(G(z)))$
- 判别器损失： $\text{Loss}_D = -\left[\log(D(x)) + \log(1 - D(G(z)))\right]$

代码示例

以下是使用不同损失函数的代码示例：

MSE 损失（回归任务）

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.losses import MeanSquaredError

# 创建模型
model = Sequential([
    Dense(64, activation='relu', input_shape=(10,)),
    Dense(1)
])

# 编译模型
model.compile(optimizer='adam', loss=MeanSquaredError())

交叉熵损失（二分类任务）

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.losses import BinaryCrossentropy

# 创建模型
model = Sequential([
    Dense(64, activation='relu', input_shape=(10,)),
    Dense(1, activation='sigmoid')
])

# 编译模型
model.compile(optimizer='adam', loss=BinaryCrossentropy())

自定义 Huber 损失

from tensorflow.keras.losses import Loss
import tensorflow as tf

class HuberLoss(Loss):
    def __init__(self, delta=1.0):
        super().__init__()
        self.delta = delta

    def call(self, y_true, y_pred):
        error = y_true - y_pred
        is_small_error = tf.abs(error) <= self.delta
        squared_loss = 0.5 * tf.square(error)
        linear_loss = self.delta * tf.abs(error) - 0.5 * tf.square(self.delta)
        return tf.where(is_small_error, squared_loss, linear_loss)

# 编译模型
model.compile(optimizer='adam', loss=HuberLoss(delta=1.0))