pytorch——实现自编码器和变分自编码器

本文只设计简单的介绍和pytorch实现,数学原理部分请移步知乎“不刷知乎”大佬的文章:半小时理解变分自编码器
本文部分观点引自上述知乎文章。

数据降维

降维是减少描述数据的特征数量的过程。可以通过选择(仅保留一些现有特征)或通过提取(基于旧特征组合来生成数量更少的新特征)来进行降维。降维在许多需要低维数据(数据可视化,数据存储,繁重的计算…)的场景中很有用。

主成分分析(PCA)

PCA的想法是构建m个新的独立特征,这些特征是n个旧特征的线性组合,并使得这些新特征所定义的子空间上的数据投影尽可能接近初始数据(就欧几里得距离而言)。换句话说,PCA寻找初始空间的最佳线性子空间(由新特征的正交基定义),以使投影到该子空间上的近似数据的误差尽可能小。

自编码器(AE)

简单来说就是使用神经网络做编码器(Encoder)和解码器(Decoder)。

  • 输入和输出的维度是一致的,保证能够重建
  • 中间有一个neck,可以升维或者降维(常用与降维)

在这里插入图片描述
自编码器的缺点:

  • 缺乏规则性:隐空间中缺乏可解释和可利用的结构
  • 自编码器的高自由度使得可以在没有信息损失的情况下进行编码和解码(尽管隐空间的维数较低)但会导致严重的过拟合,这意味着隐空间的某些点将在解码时给出无意义的内容。

变分自编码器(VAE)

隐空间的规则性可以通过两个主要属性表示:

  • 连续性(continuity,隐空间中的两个相邻点解码后不应呈现两个完全不同的内容);
  • 完整性(completeness,针对给定的分布,从隐空间采样的点在解码后应提供“有意义”的内容)。

简单来说,为了保证隐空间的规则性,VAE的编码器不是将输入编码为隐空间中的单个点,而是将其编码为隐空间中的概率分布。然后解码时按照此概率分布从隐空间中采样进行解码。训练过程:

  • 首先,将输入编码为在隐空间上的分布;
  • 第二,从该分布中采样隐空间中的一个点;
  • 第三,对采样点进行解码并计算出重建误差;
  • 最后,重建误差通过网络反向传播。

在这里插入图片描述

在这里插入图片描述如何计算KL散度:
在这里插入图片描述
将输入编码为具有一定方差而不是单个点的分布的原因是这样可以非常自然地表达隐空间规则化:编码器返回的分布被强制接近标准正态分布。

pytorch实现

本节实现AE和VAE对MNIST数据集的编码与解码(重现)。

AE

实现自编码器网络结构

'''
定义自编码器网络结构
'''

import torch
from torch import nn


class AE(nn.Module):
    def __init__(self):
        super(AE, self).__init__()

        # [b, 784] => [b, 20]
        self.encoder = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(),
            nn.Linear(256, 64),
            nn.ReLU(),
            nn.Linear(64, 20),
            nn.ReLU()
        )

        # [b, 20] => [b, 784]
        self.decoder = nn.Sequential(
            nn.Linear(20, 64),
            nn.ReLU(),
            nn.Linear(64, 256),
            nn.ReLU(),
            nn.Linear(256, 784),
            nn.Sigmoid()
        )


    def forward(self, x):
        """
        :param x: [b, 1, 28, 28]
        :return:
        """
        batchsz = x.size(0)
        # flatten(打平)
        x = x.view(batchsz, 784)
        # encoder
        x = self.encoder(x)
        # decoder
        x = self.decoder(x)
        # reshape
        x = x.view(batchsz, 1, 28, 28)

        return x

实现AE对MNIST数据集的处理

'''
此处需要安装并开启visdom
安装:pip install visdom
开启:python -m visdom.server
'''

import torch
from torch.utils.data import DataLoader
from torch import nn, optim
from torchvision import transforms, datasets

from ae import AE

import visdom


def main():
    '''import mnist dataset'''
    mnist_train = datasets.MNIST('mnist', True, transform=transforms.Compose([
        transforms.ToTensor()
    ]), download=True)
    mnist_train = DataLoader(mnist_train, batch_size=32, shuffle=True)

    mnist_test = datasets.MNIST('mnist', False, transform=transforms.Compose([
        transforms.ToTensor()
    ]), download=True)
    mnist_test = DataLoader(mnist_test, batch_size=32, shuffle=True)

    '''show shape of data'''
    x, label_unuse = iter(mnist_train).next()
    print('x:', x.shape)  # torch.Size([32, 1, 28, 28])

    '''定义神经网络相关内容'''
    device = torch.device('cuda')
    model = AE().to(device)
    # model = VAE().to(device)
    criteon = nn.MSELoss()
    optimizer = optim.Adam(model.parameters(), lr=1e-3)
    print(model)

    '''可视化'''
    viz = visdom.Visdom()

    for epoch in range(1000):

        '''train'''
        for batchidx, (x, label_unuse) in enumerate(mnist_train):
            # [b, 1, 28, 28]
            x = x.to(device)

            x_hat = model(x)
            loss = criteon(x_hat, x)

            # backprop
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        print(epoch, 'loss:', loss.item())

        '''test'''
        x, label_unuse = iter(mnist_test).next()
        x = x.to(device)
        with torch.no_grad():
            x_hat = model(x)

        '''show test result'''
        viz.images(x, nrow=8, win='x', opts=dict(title='x'))
        viz.images(x_hat, nrow=8, win='x_hat', opts=dict(title='x_hat'))


if __name__ == '__main__':
    main()

VAE

实现变分自编码器网络结构

'''
定义变分自编码器网络结构
'''

import torch
from torch import nn


class VAE(nn.Module):
    def __init__(self):
        super(VAE, self).__init__()

        # [b, 784] => [b, 20]
        # u: [b, 10]
        # sigma: [b, 10]
        self.encoder = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(),
            nn.Linear(256, 64),
            nn.ReLU(),
            nn.Linear(64, 20),
            nn.ReLU()
        )

        # [b, 10] => [b, 784]
        self.decoder = nn.Sequential(
            nn.Linear(10, 64),
            nn.ReLU(),
            nn.Linear(64, 256),
            nn.ReLU(),
            nn.Linear(256, 784),
            nn.Sigmoid()
        )

        self.criteon = nn.MSELoss()

    def forward(self, x):
        """

        :param x: [b, 1, 28, 28]
        :return:
        """
        batchsz = x.size(0)
        # flatten
        x = x.view(batchsz, 784)

        # encoder
        # [b, 20], including mean and sigma
        h_ = self.encoder(x)

        # [b, 20] => [b, 10] and [b, 10]
        mu, sigma = h_.chunk(2, dim=1)
        # reparametrize trick, epison~N(0, 1)
        h = mu + sigma * torch.randn_like(sigma)  # 随机抽样

        # decoder
        x_hat = self.decoder(h)

        # reshape
        x_hat = x_hat.view(batchsz, 1, 28, 28)

        kld = 0.5 * torch.sum(
            torch.pow(mu, 2) +
            torch.pow(sigma, 2) -
            torch.log(1e-8 + torch.pow(sigma, 2)) - 1
        ) / (batchsz*28*28)  # 计算与标准正态分布相比的散度

        return x_hat, kld

实现VAE对MNIST数据集的处理

'''
此处需要安装并开启visdom
安装:pip install visdom
开启:python -m visdom.server
'''

import torch
from torch.utils.data import DataLoader
from torch import nn, optim
from torchvision import transforms, datasets

from vae import VAE

import visdom


def main():
    '''import data set'''
    mnist_train = datasets.MNIST('mnist', True, transform=transforms.Compose([
        transforms.ToTensor()
    ]), download=True)
    mnist_train = DataLoader(mnist_train, batch_size=32, shuffle=True)

    mnist_test = datasets.MNIST('mnist', False, transform=transforms.Compose([
        transforms.ToTensor()
    ]), download=True)
    mnist_test = DataLoader(mnist_test, batch_size=32, shuffle=True)

    '''show data shape'''
    x, _ = iter(mnist_train).next()
    print('x:', x.shape)  # torch.Size([32, 1, 28, 28])

    '''def model'''
    device = torch.device('cuda')
    model = VAE().to(device)
    criteon = nn.MSELoss()
    optimizer = optim.Adam(model.parameters(), lr=1e-3)
    print(model)

    viz = visdom.Visdom()

    for epoch in range(1000):
        '''train'''
        for batchidx, (x, _) in enumerate(mnist_train):
            # [b, 1, 28, 28]
            x = x.to(device)

            x_hat, kld = model(x)
            loss = criteon(x_hat, x)

            if kld is not None:
                elbo = - loss - 1.0 * kld
                loss = - elbo

            # backprop
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        print(epoch, 'loss:', loss.item(), 'kld:', kld.item())

        '''test'''
        x, _ = iter(mnist_test).next()
        x = x.to(device)
        with torch.no_grad():
            x_hat, kld = model(x)

        '''show test result'''
        viz.images(x, nrow=8, win='x', opts=dict(title='x'))
        viz.images(x_hat, nrow=8, win='x_hat', opts=dict(title='x_hat'))


if __name__ == '__main__':
    main()
### 变分自编码器概述 变分自编码器(Variational Autoencoder, VAE)是一种基于概率图模型的生成式神经网络架构,旨在解决传统自编码器在潜在空间表示上的局限性。不同于经典自编码器仅提供输入数据到低维特征空间的映射,VAE引入了统计学中的贝叶斯框架来处理不确定性复杂的数据分布。 #### 概率视角下的编码与解码机制 在经典的自动编码器中,编码器解码器通常被设计成确定性的函数关系;而在变分自编码器里,则采用了更为灵活的概率建模方法: - **概率解码器** 定义为 \( p(x|z) \),用于描述当已知隐含变量\( z \)时观测样本\( x \)的可能性; - **概率编码器** 则定义为 \( p(z|x) \),用来表达由具体实例推断其对应隐藏状态的过程 [^2]。 为了使这种转换合理有效,在构建过程中还假设了隐层向量服从某种预设好的先验分布形式——通常是标准正态分布\[ N(0,I)\] ,从而使得整个系统能够更好地捕捉真实世界中存在的不确定性因素并促进泛化能力提升。 #### 训练目标与优化策略 由于直接计算后验分布往往非常困难甚至不可能完成的任务,因此实际操作中采用近似推理技术代替精确求解。通过最大化证据下界ELBO (Evidence Lower BOund), 即最小化重构误差加上KL散度项作为损失函数来进行参数调整: \[ L(\theta,\phi;x)=D_{K L}\left(q_\phi(z | x) \| p_\theta(z)\right)-\mathbb{E}_{q_\phi(z | x)}[\log p_\theta(x | z)] \] 其中前者衡量的是两个分布间的差异程度,后者则是关于重建质量好坏的一个指标 [^4]. ```python import torch from torch import nn, optim from torchvision.datasets.mnist import MNIST from torchvision.transforms import ToTensor class VAE(nn.Module): def __init__(self, input_dim=784, hidden_dim=400, latent_dim=20): super(VAE, self).__init__() # Encoder layers self.fc1 = nn.Linear(input_dim, hidden_dim) self.fc2_mean = nn.Linear(hidden_dim, latent_dim) self.fc2_logvar = nn.Linear(hidden_dim, latent_dim) # Decoder layers self.fc3 = nn.Linear(latent_dim, hidden_dim) self.fc4 = nn.Linear(hidden_dim, input_dim) def encode(self, x): h1 = F.relu(self.fc1(x)) return self.fc2_mean(h1), self.fc2_logvar(h1) def reparameterize(self, mu, log_var): std = torch.exp(0.5 * log_var) eps = torch.randn_like(std) return mu + eps * std def decode(self, z): h3 = F.relu(self.fc3(z)) return torch.sigmoid(self.fc4(h3)) def forward(self, x): mu, log_var = self.encode(x.view(-1, 784)) z = self.reparameterize(mu, log_var) return self.decode(z), mu, log_var def loss_function(recon_x, x, mu, log_var): BCE = F.binary_cross_entropy(recon_x, x.view(-1, 784), reduction='sum') KLD = -0.5 * torch.sum(1 + log_var - mu.pow(2) - log_var.exp()) return BCE + KLD device = 'cuda' if torch.cuda.is_available() else 'cpu' model = VAE().to(device) optimizer = optim.Adam(model.parameters(), lr=1e-3) for epoch in range(num_epochs): model.train() train_loss = 0 for batch_idx, data in enumerate(train_loader): img, _ = data img = img.to(device).view(img.size(0), -1) optimizer.zero_grad() recon_batch, mu, log_var = model(img) loss = loss_function(recon_batch, img, mu, log_var) loss.backward() train_loss += loss.item() optimizer.step() ``` 该代码片段展示了如何利用PyTorch实现一个简易版二维潜空间维度的MNIST手写数字识别任务上的变分自编码器训练流程[^3].
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值