tensorflow实现深度可分离卷积

最新推荐文章于 2023-05-23 21:13:34 发布

原创

最新推荐文章于 2023-05-23 21:13:34 发布 · 1.8k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#tensorflow #深度学习

本文探讨了在深度学习模型中使用深度可分离卷积（Depthwise Separable Convolution）进行优化的情况。作者遇到训练速度慢、收敛困难的问题，通过调整ReLU激活函数和学习率，最终提高了模型性能。实验结果显示，将传统卷积替换为深度可分离卷积能有效减小模型大小，但需要注意可能影响收敛的网络结构因素。

数据库：MNIST，与这里对比
tf.nn.depthwise_conv2d的理解看这里，主要是对卷积核参数的理解，即（高度，宽度，输入通道，每个通道得到的输出通道数）
训练速度慢，收敛也慢，刚开始就像没训练的样子，只将一个卷积层改成深度可分离卷积就增加了12次迭代
20211213：将第一个卷积层改成深度可分离卷积后，训练始终不收敛。所以改成下列代码，多训练了16次，模型减小了6.85%。使用sp_conv也会不收敛，可能是batch_normalization的原因
20211214：破案了，是relu的锅，注释以后，多训练了28次，看网上说好像要减小学习率

import tensorflow as tf
import numpy as np
import random
import cv2,sys,os
import MyData

def sp_conv(name, data, kernel_size, input_num, output_num, padding, data_format='NHWC'):
    with tf.variable_scope(name):
        weight = tf.get_variable(name='weight', dtype=tf.float32, trainable=True, shape=[kernel_size,kernel_size,input_num,1], initializer=tf.random_normal_initializer(stddev=0.01))
        conv = tf.nn.depthwise_conv2d(data, weight, [1,1,1,1], padding, data_format=data_format)
        conv = tf.layers.batch_normalization(conv, momentum=0.9)
        #conv = tf.nn.leaky_relu(conv, alpha=0.1)
        point_weight = tf.get_variable(name='point_weight', dtype=tf.float32, trainable=True, shape=[1,1,input_num,output_num], initializer=tf.random_normal_initializer(stddev=0.01))
        conv = tf.nn.conv2d(conv, point_weight, [1,1,1,1], padding, data_format=data_format)
        conv = tf.layers.batch_normalization(conv, momentum=0.9)