【大模型与机器学习解惑】无监督学习的损失函数与有监督学习的区别在哪里？-优快云博客

本文链接：https://blog.youkuaiyun.com/l35633/article/details/147036129

下面提供一份详细报告，介绍无监督学习和有监督学习中损失函数的区别，并通过表格对比说明，同时附上相应案例代码、优化方向和未来建议。

定义：基于标注数据计算误差。
常见损失：
- 分类任务：交叉熵损失
  $L(\theta) = -\sum_{i=1}^{n} y_i \log(\hat{y}_i)$
- 回归任务：均方误差（MSE）
  $L(\theta) = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i)^2$
特点：利用标签监督来指导模型训练，容易解释模型预测与实际标签之间的差距。

无监督学习的损失函数

定义：无需标签，通过捕捉数据内在结构设计损失函数。
常见损失：
- 重构损失（自编码器）：衡量输入与重构输出之间的差异
  $L(\theta) = \frac{1}{n}\sum_{i=1}^{n}\| x_i - \hat{x}_i \|^2$
- 聚类损失：例如 $k$ -means 的目标
  $\sum_{i=1}^{n} \min_{j} \|x_i - c_j\|^2$
- 对比损失：用于自监督学习，通过正负样本间的相似度区分
特点：无需外部标注，通过数据自身的内在信息来定义优化目标，通常侧重于学习数据的分布、结构或表示。

3. 损失函数对比表

学习类型	典型损失函数	定义与作用	优缺点	应用场景
有监督学习	交叉熵、均方误差等	利用真实标签计算预测误差，直接衡量模型输出与目标之间的差距	优点：目标明确，训练效果易于量化；缺点：依赖大量标注数据	图像分类、回归任务、语言模型等
无监督学习	重构损失、聚类损失、对比损失等	无需标签，通过捕捉数据内在结构（如重构或聚类）进行模型训练	优点：不依赖标签数据；缺点：设计难度大，训练目标不够直观	自编码器、聚类、生成模型、对比学习

4. 案例代码

4.1 有监督学习案例代码

以下代码演示了一个简单的图像分类任务，使用交叉熵损失函数与 Adam 优化器。

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的两层全连接分类器（假设输入特征 784，分类数 10）
class SimpleClassifier(nn.Module):
    def __init__(self):
        super(SimpleClassifier, self).__init__()
        self.fc1 = nn.Linear(784, 128)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(128, 10)
    
    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

model = SimpleClassifier()
criterion = nn.CrossEntropyLoss()  # 有监督分类损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 模拟输入数据和标签
# 假设每个样本是 28x28 图像展平成 784 维，标签范围为 0-9
x = torch.randn(32, 784)
y = torch.randint(0, 10, (32,))

# 前向传播与反向传播
model.train()
optimizer.zero_grad()
outputs = model(x)
loss = criterion(outputs, y)  # 计算交叉熵损失
loss.backward()
optimizer.step()

print("有监督学习（分类）损失:", loss.item())

4.2 无监督学习案例代码

下面代码展示了一个自编码器的例子，使用重构误差作为损失函数。

import torch
import torch.nn as nn
import torch.optim as optim

# 定义一个简单的自编码器
class Autoencoder(nn.Module):
    def __init__(self):
        super(Autoencoder, self).__init__()
        # 编码器部分
        self.encoder = nn.Sequential(
            nn.Linear(784, 128),
            nn.ReLU(),
            nn.Linear(128, 64)
        )
        # 解码器部分
        self.decoder = nn.Sequential(
            nn.Linear(64, 128),
            nn.ReLU(),
            nn.Linear(128, 784),
            nn.Sigmoid()  # 将输出归一化到 [0,1]
        )
    
    def forward(self, x):
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        return decoded

model = Autoencoder()
criterion = nn.MSELoss()  # 使用均方误差作为重构损失
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 模拟输入数据
# 假设输入为 28x28 图像展平成 784 维向量
x = torch.randn(32, 784)

# 前向传播与反向传播
model.train()
optimizer.zero_grad()
reconstructed = model(x)
loss = criterion(reconstructed, x)  # 计算重构误差
loss.backward()
optimizer.step()

print("无监督学习（自编码器）重构损失:", loss.item())

5. 优化方向与未来建议

损失函数设计的灵活性
- 有监督学习：可以探索更为细粒度的损失函数（例如结合焦点损失、标签平滑等技术）来处理类别不平衡或噪声标签问题。
- 无监督学习：需要进一步探索能更好捕捉数据内在结构的损失函数，比如自监督目标、对比损失或基于生成对抗思想的损失。
混合学习范式
- 当前研究中很多方法结合有监督与无监督学习（如半监督学习、自监督预训练），未来可设计混合损失函数，使模型在拥有少量标签数据的情况下充分利用海量无标签数据。
自适应与动态调整
- 开发能根据训练阶段自适应调整权重或形态的损失函数，有助于模型在不同阶段更好地捕捉数据分布与复杂性。
跨领域与多任务损失设计
- 针对多任务学习和跨领域应用，设计能兼顾各任务或领域特性的综合损失函数，以便提升模型的泛化能力。