CGAN生成指定数据

import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
import numpy as np
import os
import matplotlib.gridspec as gridspec
import matplotlib.pyplot as plt
mnist = input_data.read_data_sets('./MNIST_data', one_hot=True)

def xavier_init(shape):
    in_dim = shape[0]
    stddev = 1./tf.sqrt(in_dim/2.)
    return tf.random_normal(shape=shape,stddev=stddev)

def Gnet(rand_x,y):
    z_cond = tf.concat([rand_x,y],axis=1)  # 噪声的输入也要加上标签,意思就是“我想伪造谁”
    w1 = tf.Variable(xavier_init([128+10,128]))
    b1 = tf.Variable(tf.zeros([128]),dtype=tf.float32)
    y1 = tf.nn.relu(tf.matmul(z_cond,w1)+b1)
    w2= tf.Variable(xavier_init([128,784]))
    b2 = tf.Variable(tf.zeros([784]),dtype=tf.float32)
    y2 = tf.nn.sigmoid(tf.matmul(y1,w2)+b2)
    # 待训练参数要一并返回
    params = [w1,b1,w2,b2]
    return y2, params

def Dnet(real_x,fack_x,y):
    realx_cond = tf.concat([real_x,y],axis=1)  # 把原始样本和其标签一起放入
    fackx_cond = tf.concat([fack_x,y],axis=1)  # 把生成样本和其伪造标签一起放入
    w1 = tf.Variable(xavier_init([784+10,128]))
    b1 = tf.Variable(tf.zeros([128]),dtype=tf.float32)
    real_y1 = tf.nn.dropout(tf.nn.relu(tf.matmul(realx_cond,w1)+b1),0.5)  # 不加dropout迭代到一定次数会挂掉
    fack_y1 = tf.nn.dropout(tf.nn.relu(tf.matmul(fackx_cond,w1)+b1),0.5)
    w2 = tf.Variable(xavier_init([128,1]))
    b2 = tf.Variable(tf.zeros([1]),dtype=tf.float32)
    real_y2 = tf.nn.sigmoid(tf.matmul(real_y1,w2)+b2)
    fack_y2 = tf.nn.sigmoid(tf.matmul(fack_y1,w2)+b2)

    params = [w1,b1,w2,b2]
    return real_y2,fack_y2,params

def save(samples, index,shape):
    '''只是用来把图片保存到本地,和训练无关'''
    x,y=shape  # 保存图片的宽高(每个单位一张生成数字)
    fig = plt.figure(figsize=(x,y))
    gs = gridspec.GridSpec(x,y)
    gs.update(wspace=0.05,hspace=0.05)

    for i,sample in enumerate(samples):
        ax = plt.subplot(gs[i])
        plt.axis('off')
        ax.set_xticklabels([])
        ax.set_yticklabels([])
        ax.set_aspect('equal')
        plt.imshow(sample.reshape(28,28),cmap='Greys_r')
    plt.savefig('./d_img/'+'{}.png'.format(str(index).zfill(3)))
    plt.close(fig)

real_x = tf.placeholder(tf.float32,shape=[None,784])
lable = tf.placeholder(tf.float32,shape=[None,10])
rand_x = tf.placeholder(tf.float32,shape=[None,128])
fack_g_out,g_params = Gnet(rand_x,lable)  # 生产伪造样本
real_d_out,g_d_out,d_params = Dnet(real_x,fack_g_out,lable)  # 把伪造样本和生成的一并传入计算各自概率
d_loss = -tf.reduce_mean(tf.log(real_d_out+1e-30) + tf.log(1.-g_d_out+1e-30))  # 不加这个1e-30会出现log(0)
g_loss = -tf.reduce_mean(tf.log(g_d_out+1e-30))
g_opt = tf.train.AdamOptimizer(0.001).minimize(g_loss,var_list=g_params)
d_opt = tf.train.AdamOptimizer(0.001).minimize(d_loss,var_list=d_params)
sess = tf.Session()
sess.run(tf.global_variables_initializer())
for i in range(100000):
    x_random = np.random.uniform(-1.,1.,size=[100,128]).astype(np.float32)
    if i % 1000 == 0:  # 这个只是用来保存图片,和训练没什么关系
        labels = [i for i in range(10) for _ in range(10)]  # 我要让他生成的数字,每行相同,每列从0到1递增
        cond_y = sess.run(tf.one_hot(np.array(labels),depth=10))  # 喂的字典不能是tensor,我run成np array
        samples = sess.run(fack_g_out, feed_dict = {rand_x:x_random,lable:cond_y})
        index = int(i/1000)  # 用来当保存图片的名字
        shape = [10,10]  # 维度和labels的宽高匹配
        save(samples, index, shape)  # 保存图片
    x,y = mnist.train.next_batch(100)
    D_loss,D_opt = sess.run([d_loss,d_opt],feed_dict={real_x:x,rand_x:x_random,lable:y.astype(np.float32)})
    G_loss,G_opt = sess.run([g_loss,g_opt],feed_dict={rand_x:x_random,lable:y.astype(np.float32)})
    if i % 1000 == 0:
        print('iter: %d, d_loss: %.3f, g_loss: %.3f\n' % (i,D_loss,G_loss))

 

<think>好的,我现在需要帮助用户解决如何使用CGAN生成随机老鼠图像的问题。首先,我得回忆一下CGAN的基本原理和结构。根据用户提供的引用资料,特别是引用[2],CGAN是在GAN的基础上加入条件约束,通常是通过标签或其他信息来指导生成过程。生成器和判别器都会接收这个条件信息,从而生成更符合要求的图像。 用户的需求是生成随机老鼠图片,所以需要明确条件是什么。通常,条件可以是类别标签,比如“老鼠”,或者是其他特征描述。这里可能需要将条件信息以某种形式嵌入到模型中,比如使用标签的one-hot编码或者文本嵌入。 接下来,我需要考虑数据集的准备。生成老鼠图片需要大量的老鼠图像数据集,比如ImageNet中的老鼠类别,或者专门的老鼠图片数据集数据预处理步骤包括归一化、调整大小到固定分辨率(如64x64或128x128像素)等。 然后是模型架构的设计。生成器部分,根据引用[3],可能需要使用密集连接网络(DenseNet)来提高特征传递效率。生成器通常接收随机噪声向量和条件向量,将它们合并后通过反卷积层生成图像。判别器则需要同时处理图像和条件信息,可能将条件信息与图像在通道维度上拼接,或者通过投影层将条件嵌入到判别器中。 损失函数方面,CGAN使用对抗损失,同时结合条件信息。生成器的目标是让判别器认为生成的图像是真实的,并且符合条件;判别器则需要区分真实图像和生成图像,同时检查条件是否匹配。此外,引用[3]提到可以加入额外的损失函数,如感知损失或L1损失,来进一步约束生成图像的质量。 代码实现部分,用户可能需要一个示例,所以需要选择适合的深度学习框架,如PyTorch或TensorFlow。以PyTorch为例,生成器的结构可能包括多个反卷积层,将噪声和条件向量结合后逐步上采样生成图像。判别器则可能使用卷积层,并将条件信息整合到判别过程中。 训练过程中需要注意平衡生成器和判别器的训练,避免模式崩溃。可能需要调整学习率、使用优化器如Adam,并设置合适的批次大小和训练轮数。此外,数据增强技术如随机翻转、旋转等可以增加数据多样性,提升模型泛化能力。 最后,生成随机老鼠图像时,需要输入随机噪声向量和对应的条件向量(如“老鼠”的标签),通过生成器得到输出图像。可能需要多次调整超参数和网络结构,才能得到理想的结果。 现在需要检查是否有遗漏的步骤,比如条件信息的处理方式是否正确,数据预处理是否充分,以及损失函数的设计是否合理。另外,用户可能需要具体的代码示例,所以需要提供一个简化的代码框架,并注明需要根据实际情况调整的部分。</think>### 使用CGAN生成随机老鼠图像的步骤 #### 1. **条件设计与数据准备** - **条件设定**: 使用"老鼠"的类别标签作为条件,以one-hot编码形式嵌入。例如,假设数据集中有10个类别,则"老鼠"对应的向量为$[0,1,0,...,0]$。 - **数据集**: 需准备包含老鼠的图像数据集(如ImageNet的子集),并进行以下预处理: - 归一化到$[-1,1]$范围 - 调整尺寸为固定分辨率(如$64\times64$像素) - 数据增强(随机翻转、旋转) #### 2. **模型架构(PyTorch示例)** ```python import torch import torch.nn as nn # 生成器 class Generator(nn.Module): def __init__(self, noise_dim=100, num_classes=10): super().__init__() self.label_emb = nn.Embedding(num_classes, num_classes) self.model = nn.Sequential( nn.Linear(noise_dim + num_classes, 256), nn.LeakyReLU(0.2), nn.BatchNorm1d(256), nn.Linear(256, 512), nn.LeakyReLU(0.2), nn.BatchNorm1d(512), nn.Linear(512, 1024), nn.LeakyReLU(0.2), nn.BatchNorm1d(1024), nn.Linear(1024, 3*64*64), nn.Tanh() ) def forward(self, z, labels): c = self.label_emb(labels) x = torch.cat([z, c], 1) return self.model(x).view(-1,3,64,64) # 判别器 class Discriminator(nn.Module): def __init__(self, num_classes=10): super().__init__() self.label_emb = nn.Embedding(num_classes, num_classes) self.model = nn.Sequential( nn.Linear(3*64*64 + num_classes, 1024), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(1024, 512), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(512, 256), nn.LeakyReLU(0.2), nn.Dropout(0.3), nn.Linear(256, 1), nn.Sigmoid() ) def forward(self, img, labels): img_flat = img.view(img.size(0), -1) c = self.label_emb(labels) x = torch.cat([img_flat, c], 1) return self.model(x) ``` #### 3. **损失函数与训练** 采用改进的对抗损失,参考论文中的对抗LOSS设计[^3]: $$ \mathcal{L}_{cGAN} = \mathbb{E}[\log D(x|y)] + \mathbb{E}[\log(1 - D(G(z|y)))] $$ ```python # 训练循环核心代码 for epoch in range(num_epochs): for real_imgs, labels in dataloader: # 生成假图像 z = torch.randn(batch_size, noise_dim) fake_imgs = generator(z, labels) # 训练判别器 real_pred = discriminator(real_imgs, labels) fake_pred = discriminator(fake_imgs.detach(), labels) d_loss = -torch.mean(torch.log(real_pred + 1e-8) + torch.log(1 - fake_pred + 1e-8)) # 训练生成器 gen_pred = discriminator(fake_imgs, labels) g_loss = -torch.mean(torch.log(gen_pred + 1e-8)) # 添加L1正则项(可选) l1_loss = nn.L1Loss()(fake_imgs, real_imgs) g_loss += 10 * l1_loss # 根据论文调整系数 ``` #### 4. **生成新图像** ```python # 生成指定数量的老鼠图像 num_samples = 10 z = torch.randn(num_samples, noise_dim) labels = torch.tensor([1]*num_samples) # 假设标签1对应老鼠 generated_imgs = generator(z, labels) ``` ### 关键优化点 1. **密集连接生成器**:可采用类似论文中的dense block设计增强特征复用 2. **多尺度判别器**:同时处理全局和局部特征判断真伪[^3] 3. **混合损失函数**:结合对抗损失和像素级L1损失
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值