深度学习中数据增强的办法

最新推荐文章于 2025-03-19 20:38:39 发布

Imrea

最新推荐文章于 2025-03-19 20:38:39 发布

阅读量382

点赞数 1

文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_64662113/article/details/133929613

版权

深度学习中使用数据增强是一种重要的技术，可以帮助提高模型的性能和泛化能力，特别是当训练数据有限时。数据增强通过对原始训练数据进行多样性的变换来生成更多的训练样本。以下是一些常见的深度学习数据增强方法：

图像数据增强：

旋转：随机旋转图像一定角度，以增加视角的变化。
翻转：随机水平或垂直翻转图像，以增加镜像视图。
缩放：随机缩放图像大小，以模拟不同的距离或缩放比例。
剪裁：随机剪裁图像的一部分，以改变图像的组合和视野。
平移：随机平移图像，以模拟不同的拍摄位置。
亮度、对比度和饱和度调整：对图像的亮度、对比度和饱和度进行随机调整。
添加噪声：向图像中添加随机噪声，以提高鲁棒性。

文本数据增强：
10.同义词替换：替换文本中的一些单词为它们的同义词，保持句子语义不变。
11.随机插入单词：在文本中随机插入一些额外的单词。
12.随机删除单词：随机删除文本中的一些单词。
13.随机交换单词位置：随机调换文本中单词的位置。
14.字符级数据增强：对字符级文本进行随机扰动，如添加字符级噪声。

音频数据增强：
16.音高变换：改变音频的音高，以增加变化。
17.速度变化：加速或减慢音频的播放速度。
18.噪声添加：向音频中添加随机噪声。
19.剪辑和平移：随机剪辑和平移音频片段。

时间序列数据增强：
21.时间平移：随机平移时间序列数据点，以引入时间相关的变化。
22.幅度调整：随机调整数据点的幅度。
23.添加噪声：向数据中添加随机噪声。

这些方法可以根据特定任务和数据集的需求进行组合和调整。数据增强可以帮助模型更好地泛化到未见过的数据，减轻过拟合问题，提高模型的性能和稳健性。不同的任务和数据类型可能需要不同的数据增强方法，因此应根据具体情况选择合适的方法。

展示一下DCGAN的代码，把路径换成自己数据集的即可。

import torch
import torch.nn as nn
import torchvision.transforms as transforms
import torchvision.utils
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchvision.datasets import ImageFolder

# Hyperparameters
image_size = 64
batch_size = 128
lr = 0.0002
beta1 = 0.5
num_epochs = 2200
latent_dim = 100
channels = 1
label_real = 0.9  # Label Smoothing
label_fake = 0.1  # Label Smoothing

# Dataset and DataLoader
transform = transforms.Compose([
    transforms.Resize(image_size),
    transforms.CenterCrop(image_size),
    transforms.Grayscale(channels),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

dataset = ImageFolder(root="C:/Users/la/Desktop/resize", transform=transform)
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# Initialize weights with Xavier initialization
def weights_init(m):
    classname = m.__class__.__name__
    if classname.find('Conv') != -1:
        nn.init.xavier_uniform_(m.weight.data)


# DCGAN Generator
class Generator(nn.Module):
    def __init__(self):
        super(Generator, self).__init__()
        self.main = nn.Sequential(
            nn.ConvTranspose2d(latent_dim, 512, 4, 1, 0, bias=False),
            nn.BatchNorm2d(512),
            nn.ReLU(True),

            nn.ConvTranspose2d(512, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.ReLU(True),

            nn.ConvTranspose2d(256, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.ReLU(True),

            nn.ConvTranspose2d(128, 64, 4, 2, 1, bias=False),
            nn.BatchNorm2d(64),
            nn.ReLU(True),

            nn.ConvTranspose2d(64, channels, 4, 2, 1, bias=False),
            nn.Tanh()
        )

    def forward(self, input):
        return self.main(input)

# DCGAN Discriminator
class Discriminator(nn.Module):
    def __init__(self):
        super(Discriminator, self).__init__()
        self.main = nn.Sequential(
            nn.Conv2d(channels, 64, 4, 2, 1, bias=False),
            nn.LeakyReLU(0.2, inplace=True),

            nn.Conv2d(64, 128, 4, 2, 1, bias=False),
            nn.BatchNorm2d(128),
            nn.LeakyReLU(0.2, inplace=True),

            nn.Conv2d(128, 256, 4, 2, 1, bias=False),
            nn.BatchNorm2d(256),
            nn.LeakyReLU(0.2, inplace=True),

            nn.Conv2d(256, 512, 4, 2, 1, bias=False),
            nn.BatchNorm2d(512),
            nn.LeakyReLU(0.2, inplace=True),

            nn.Conv2d(512, 1, 4, 1, 0, bias=False),
            nn.Sigmoid()
        )

    def forward(self, input):
        return self.main(input).view(-1)

# Initialize models and optimizers
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

netG = Generator().to(device)
netG.apply(weights_init)
netD = Discriminator().to(device)
netD.apply(weights_init)

criterion = nn.BCELoss()
optimizerD = torch.optim.Adam(netD.parameters(), lr=lr, betas=(beta1, 0.999))
optimizerG = torch.optim.Adam(netG.parameters(), lr=lr, betas=(beta1, 0.999))
fixed_noise = torch.randn(64, latent_dim, 1, 1, device=device)

writer = SummaryWriter('runs/DCGAN_experiment_optimized2')

# Training Loop
for epoch in range(num_epochs):
    for i, (data, _) in enumerate(dataloader):
        netD.zero_grad()

        # Train Discriminator with real data
        real_data = data.to(device)
        batch_size = real_data.size(0)
        label = torch.full((batch_size,), label_real, device=device)
        output = netD(real_data)
        errD_real = criterion(output, label)
        errD_real.backward()

        # Train Discriminator with fake data
        noise = torch.randn(batch_size, latent_dim, 1, 1, device=device)
        fake = netG(noise)
        label.fill_(label_fake)
        output = netD(fake.detach())
        errD_fake = criterion(output, label)
        errD_fake.backward()

        errD = errD_real + errD_fake
        optimizerD.step()

        netG.zero_grad()
        label.fill_(label_real)
        output = netD(fake)
        errG = criterion(output, label)
        errG.backward()
        optimizerG.step()

        # TensorBoard logging
        if i % 100 == 0:
            writer.add_scalar('Loss/Generator', errG.item(), epoch * len(dataloader) + i)
            writer.add_scalar('Loss/Discriminator', errD.item(), epoch * len(dataloader) + i)

    with torch.no_grad():
        fake = netG(fixed_noise).detach().cpu()
        img_grid = torchvision.utils.make_grid(fake, padding=2, normalize=True)
        writer.add_image('Generated Images', img_grid, epoch)

writer.close()
torch.save(netG.state_dict(), 'generator1.pth')