21、机器学习的最新进展：生成式建模与强化学习

最新推荐文章于 2025-11-19 03:26:54 发布

terraform7cloud

最新推荐文章于 2025-11-19 03:26:54 发布

阅读量58

点赞数

CC 4.0 BY-SA版权

分类专栏：调试机器学习：从理论到实践文章标签：生成式建模强化学习自监督学习

本文链接：https://blog.youkuaiyun.com/terraform7cloud/article/details/151631700

调试机器学习：从理论到实践专栏收录该内容

26 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习的最新进展：生成式建模与强化学习

1. 机器学习技术的转变

直到2020年，监督学习一直是机器学习在不同行业和应用领域中大多数成功应用的焦点。然而，后来像生成式建模这样的其他技术吸引了机器学习开发者和用户的关注。了解这些技术有助于我们拓宽对机器学习能力的理解，超越监督学习的范畴。接下来，我们将介绍生成式建模、强化学习和自监督学习等技术。

1.1 技术要求

为了更好地理解这些概念并将其应用到项目中，需要满足以下Python库要求：
- torch >= 2.0.0
- torchvision >= 0.15.1
- matplotlib >= 3.7.1

代码文件可在GitHub上找到： https://github.com/PacktPublishing/Debugging-Machine-Learning-Models-with-Python/tree/main/Chapter14

2. 生成式建模

生成式建模，更广泛地称为生成式AI，为我们提供了生成接近预期或参考数据集或分布的数据的机会，这些数据通常被称为真实数据。

2.1 成功应用案例

语言建模 ：生成式预训练变换器（GPT）-4和基于GPT - 4及GPT - 3.5构建的聊天机器人ChatGPT取得了巨大成功。类似的工具如Perplexity也受到关注。用户可以通过提供提示（prompt）来获取答案、信息或文本。
代码生成与完成 ：GPT - 4及其早期版本，以及LLaMA等模型，可用于代码生成和补全。虽然生成的代码可能并非每次都能按预期工作，但经过几次尝试后通常接近预期。
其他领域 ：生成式建模还在图像生成、药物发现、时尚设计、制造业等领域有成功应用。从2023年开始，许多传统商业工具和服务也开始集成生成式AI功能，如Adobe Photoshop中的图像编辑、WolframAlpha的符号计算以及Khan Academy在教育中的应用。

2.2 生成式深度学习技术

2.2.1 基于变换器的文本生成

变换器（transformers）在2017年被引入，已用于生成最成功的近期语言模型。这些模型不仅适用于自然语言处理中的传统翻译任务，还可用于生成式建模，帮助我们生成有意义的文本，如GPT模型和Chat - GPT等。提供提示（prompt）是获取良好答案的关键，后续会介绍优化提示的方法。

2.2.2 变分自编码器（VAEs）

自编码器是一种将特征数量减少到信息丰富的嵌入集的技术，可看作是主成分分析（PCA）的更复杂版本。变分自编码器（VAE）在2013年被提出，它为每个新特征生成一个分布，而不是一组固定的特征。例如，将原始的1000个特征减少到100个新变量，每个变量是一个正态（或高斯）分布。我们可以从这些分布中选择不同的值来生成新的嵌入，进而解码生成与原始特征大小相同的新特征。该过程可用于图像和图等不同类型的数据。在PyTorch中实现的VAEs集合可在 https://github.com/AntixK/PyTorch - VAE 找到。

2.2.3 生成对抗网络（GANs）

生成对抗网络在2014年被引入，由一个类似于监督分类模型的判别器和一个生成器组成。生成器旨在生成数据（如图像）以欺骗判别器，使其将生成的数据识别为真实数据；判别器则学习区分生成数据和真实数据。生成的数据在某些情况下被称为假数据，但可作为新的数据点用于不同应用，如药物发现。可以使用 torchgan 来实现GANs，文档地址为 https://torchgan.readthedocs.io/en/latest/ 。

2.3 基于文本的生成式模型的提示工程

提示工程不仅是机器学习中的一个热门话题，也是一个高薪职业。其目标是提供最优提示以生成最佳结果（如文本、代码和图像），并识别生成式模型中的问题以进行改进。

2.3.1 目标提示技术

为了获得更好的响应和生成数据，可以采用以下技术：
- 明确需求 ：提供具体信息，如数据生成的格式（如项目符号或代码）和具体任务（如写邮件或商业计划）。
- 指定生成对象 ：可以指定数据是为谁生成的，如机器学习工程师、业务经理或软件开发人员。
- 指定时间 ：可以指定是否需要关于技术发布日期、首次宣布时间、事件的时间顺序或某些事物随时间的变化等信息。
- 简化概念 ：提供简化版本的问题，确保模型不会因提示的复杂性而困惑。

尽管这些技术有助于更好地提示，但仍可能出现高置信度的错误答案或不相关的数据生成，这通常被称为幻觉（hallucination）。减少无关或错误响应的一种方法是为模型提供测试，就像在Python中编写函数和类时设计单元测试一样。

2.4 使用PyTorch进行生成式建模

我们可以使用PyTorch基于前面讨论的不同技术开发生成式模型，这里以变分自编码器（VAEs）为例。

2.4.1 加载数据集

首先，导入所需的库和模块，并加载PyTorch中的Flowers102数据集：

import torch
import torchvision
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

transform = transforms.Compose([
    transforms.Resize((32, 32)),
    transforms.ToTensor()
])
train_dataset = datasets.Flowers102(root='./data',
                                    download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=32,
                          shuffle=True)

2.4.2 定义VAE类

定义一个VAE类，其中包含编码器和解码器，以及用于计算潜在空间分布的均值和方差的线性层：

import torch.nn as nn
import torch.nn.functional as F
import torch.distributions as dist

class VAE(nn.Module):
    def __init__(self):
        super(VAE, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(32 * 32 * 3, 512),
            nn.ReLU(),
            nn.Linear(512, 128),
            nn.ReLU(),
        )
        self.fc_mean = nn.Linear(128, 32)
        self.fc_var = nn.Linear(128, 32)
        self.decoder = nn.Sequential(
            nn.Linear(32, 128),
            nn.ReLU(),
            nn.Linear(128, 512),
            nn.ReLU(),
            nn.Linear(512, 32 * 32 * 3),
            nn.Sigmoid(),
        )

    def forward(self, x):
        h = self.encoder(x.view(-1, 32 * 32 * 3))
        mean, logvar = self.fc_mean(h), self.fc_var(h)
        std = torch.exp(0.5*logvar)
        q = dist.Normal(mean, std)
        z = q.rsample()
        return self.decoder(z), mean, logvar

2.4.3 初始化模型和优化器

初始化定义的VAE类，并使用Adam优化器，学习率为0.002：

import torch.optim as optim

model = VAE()
optimizer = optim.Adam(model.parameters(), lr=2e-3)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

2.4.4 定义损失函数

使用二元交叉熵定义损失函数，比较再生像素与输入像素：

def loss_function(recon_x, x, mu, logvar):
    BCE = nn.functional.binary_cross_entropy(recon_x,
                                             x.view(-1, 32 * 32 * 3), reduction='sum')
    KLD = -0.5 * torch.sum(
        1 + logvar - mu.pow(2) - logvar.exp())
    return BCE + KLD

2.4.5 训练模型

使用之前加载的Flowers102数据集训练模型：

n_epoch = 400
for epoch in range(n_epoch):
    model.train()
    train_loss = 0
    for batch_idx, (data, _) in enumerate(train_loader):
        data = data.to(device)
        optimizer.zero_grad()
        recon_batch, mean, logvar = model(data)
        loss = loss_function(recon_batch, data, mean,
                             logvar)
        loss.backward()
        train_loss += loss.item()
        optimizer.step()
    print(f'Epoch: {epoch} Average loss: {
        train_loss / len(train_loader.dataset):.4f}')

训练后的模型可用于生成几乎像花朵的图像。通过超参数优化，如改变模型架构，可以获得更好的结果。

2.5 生成式建模流程总结

graph LR
    A[选择生成式技术] --> B[导入库和数据集]
    B --> C[定义模型架构]
    C --> D[初始化模型和优化器]
    D --> E[定义损失函数]
    E --> F[训练模型]
    F --> G[生成数据]

2.6 目标提示技术总结

技术	说明
明确需求	提供数据格式和具体任务信息
指定生成对象	明确数据为谁生成
指定时间	提及时间相关信息
简化概念	避免提示过于复杂

3. 强化学习

3.1 强化学习概述

强化学习是一种机器学习范式，智能体（agent）通过与环境进行交互，在一系列的状态下采取行动，并根据环境反馈的奖励信号来学习最优的行为策略。与监督学习不同，强化学习没有明确的输入 - 输出对，智能体需要在探索环境的过程中不断尝试不同的行动，以最大化长期累积奖励。

3.2 应用场景

强化学习在许多领域都有广泛的应用，以下是一些常见的例子：
- 游戏领域 ：如AlphaGo在围棋比赛中战胜人类冠军，它通过强化学习不断优化策略，在复杂的游戏环境中做出最优决策。
- 机器人控制 ：机器人可以通过强化学习学习如何在不同的环境中移动、抓取物体等，实现自主导航和操作。
- 资源管理 ：在云计算、能源管理等领域，强化学习可以用于优化资源分配，提高系统的效率和性能。

3.3 强化学习的基本要素

强化学习包含以下几个基本要素：
- 智能体（Agent） ：执行行动的主体，通过与环境交互来学习。
- 环境（Environment） ：智能体所处的外部世界，它会根据智能体的行动产生新的状态和奖励。
- 状态（State） ：描述环境在某一时刻的特征信息，智能体根据当前状态选择行动。
- 行动（Action） ：智能体在某一状态下可以采取的操作。
- 奖励（Reward） ：环境对智能体采取的行动给予的即时反馈，用于指导智能体学习最优策略。

3.4 强化学习算法

常见的强化学习算法包括：
- Q - 学习（Q - learning） ：一种无模型的强化学习算法，通过学习一个动作价值函数Q(s, a)来确定在某个状态s下采取动作a的价值。智能体根据Q值选择最优行动，不断更新Q值以逼近最优策略。
- 策略梯度算法（Policy Gradient） ：直接对策略进行优化，通过计算策略的梯度来更新策略参数，使策略朝着获得更高奖励的方向调整。
- 深度Q网络（Deep Q - Network, DQN） ：结合了深度学习和Q - 学习的思想，使用神经网络来近似Q值函数，能够处理高维状态空间的问题。

3.5 强化学习流程

graph LR
    A[初始化智能体和环境] --> B[获取当前状态]
    B --> C[智能体选择行动]
    C --> D[行动作用于环境]
    D --> E[环境返回新状态和奖励]
    E --> F[智能体更新策略]
    F --> B

4. 自监督学习

4.1 自监督学习概述

自监督学习是一种无监督学习方法，它通过自动生成监督信号来训练模型。与传统的无监督学习不同，自监督学习利用数据自身的结构和信息来创建监督任务，从而让模型学习到数据的内在特征和表示。

4.2 应用场景

自监督学习在许多领域都取得了显著的成果，例如：
- 计算机视觉 ：在图像分类、目标检测、语义分割等任务中，自监督学习可以用于预训练模型，提高模型的泛化能力和性能。
- 自然语言处理 ：在语言模型预训练中，自监督学习可以学习到语言的语法、语义等信息，为下游任务提供更好的特征表示。

4.3 自监督学习的常见方法

掩码语言模型（Masked Language Model, MLM） ：在自然语言处理中，随机掩码输入文本中的一些词，然后让模型预测这些被掩码的词。通过这种方式，模型可以学习到语言的上下文信息和语义表示。
对比学习（Contrastive Learning） ：通过对比正样本和负样本，让模型学习到样本之间的相似性和差异性。在计算机视觉中，通常会对图像进行不同的变换，将原始图像和变换后的图像作为正样本，而不同图像作为负样本。

4.4 自监督学习的优势

数据利用效率高 ：自监督学习可以利用大量的无标签数据进行训练，减少了对人工标注数据的依赖。
泛化能力强 ：通过学习数据的内在结构和特征，自监督学习模型在不同的任务和数据集上具有更好的泛化能力。

4.5 自监督学习流程

graph LR
    A[准备无标签数据] --> B[设计自监督任务]
    B --> C[生成监督信号]
    C --> D[训练模型]
    D --> E[应用于下游任务]

5. 总结与展望

5.1 技术总结

本文介绍了机器学习中的生成式建模、强化学习和自监督学习三种技术。生成式建模可以生成接近真实数据的样本，在语言、图像、代码等多个领域有广泛应用；强化学习通过智能体与环境的交互学习最优策略，在游戏、机器人控制等领域取得了显著成果；自监督学习利用数据自身的结构进行训练，提高了数据利用效率和模型的泛化能力。

5.2 未来发展趋势

随着技术的不断发展，这些技术将在更多领域得到应用和拓展。例如，生成式建模与强化学习的结合可以用于创造更加智能和灵活的虚拟世界；自监督学习在处理大规模无标签数据方面的优势将使其在数据驱动的应用中发挥更大的作用。同时，这些技术的融合也将为解决复杂的现实问题提供更强大的工具。

5.3 学习建议

对于想要深入学习这些技术的读者，建议从以下几个方面入手：
- 理论学习 ：系统学习相关的理论知识，包括算法原理、数学基础等。
- 实践操作 ：通过实际项目和代码实现，加深对技术的理解和掌握。
- 关注前沿 ：关注学术研究和行业动态，了解最新的技术进展和应用案例。

技术类型	核心思想	应用场景	常见算法
生成式建模	生成接近真实数据的样本	语言、图像、代码生成等	变换器、VAE、GAN
强化学习	智能体通过与环境交互学习最优策略	游戏、机器人控制、资源管理等	Q - 学习、策略梯度、DQN
自监督学习	利用数据自身结构进行训练	计算机视觉、自然语言处理等	掩码语言模型、对比学习