pytorch自动编码器实现有损图像压缩

卷积神经网络自动编码器

最新推荐文章于 2025-10-10 21:05:08 发布

原创

最新推荐文章于 2025-10-10 21:05:08 发布 · 3.9k 阅读

39 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #自动编码器 #图片压缩 #解码器

自动编码器（AutoEncoder）由编码器（Encoder）和解码器（Decoder）两部分组成。编码器和解码器可以是任意模型，通常神经网络模型作为编码器和解码器。

自动编码器作为一种数据压缩的方法，其原理是：输入数据经过编码器变成一个编码（code），然后将这个编码作为解码器的输入，观察解码器的输出是否能还原原始数据，因此将解码器的输出和原始数据的误差作为最优化的目标。

下面以MNIST数据集为例，使用pytorch1.0构建一个卷积神经网络做自动编码器。

1.添加引用的库文件

import os
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import datasets, transforms
from torchvision.utils import save_image

2.定义超参数，是否使用GPU加速

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
batch_size = 512

3.加载MNIST数据集，并将图片的大小变为-1~1之间，这样可以使输入变得更对称，训练更加容易收敛。

# 标准化
data_tf = transforms.Compose(
    [transforms.ToTensor(),
     transforms.Normalize([0.5], [0.5])]
)


train_dataset = datasets.MNIST(root='./data', train=True, transform=data_tf, download=True)
train_data = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

4.定义卷积神经网络的自动编码器

class AutoEncoder(nn.Module):
    def __init__(self):
        super(AutoEncoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Conv2d(1, 16, 3, stride=3, padding=1),  # b,16,10,10
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=2),  # b,16,5,5
            nn.Conv2d(16, 8, 3, stride=2, padding=1),  # b,8,3,3
            nn.ReLU(True),
            nn.MaxPool2d(2, stride=1)  # b,8,2,2
        )
        self.decoder = nn.Sequential(
            nn.ConvTransp

最低0.47元/天解锁文章

5 条评论

Scorpio～ 2022.08.04
解码后图像大应该是因为这只是生成的图片再次被编码成png格式的大小，对该图片的保存方式仍然是png格式，要是把压缩后的特征进行一个熵编码，用熵编码的方式保存比特流，这样只需要保存比特流就可以通过解码器解码出来，比特流的大小才是衡量AE的压缩性能，不能看生成的图像在被压缩编码成png格式的大小，这样衡量不出什么东西的。