浅 CNN 中激活函数选择、 kernel大小以及channel数量

最新推荐文章于 2025-05-22 09:53:47 发布

原创最新推荐文章于 2025-05-22 09:53:47 发布 · 6.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Machine Learning 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了在经典LeNet模型上使用不同激活函数（如ReLU与sigmoid）对MNIST数据集识别效果的影响，发现适当的选择对提升模型性能至关重要。此外，文章还分析了卷积核大小与通道数量对模型训练结果的具体作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Activation function

当用经典的 LeNet 进行 MNIST 识别训练时，我发现将 sigmoid 函数改为 ReLu，同时降低学习率（防止 dying neurons）并没能加快 SGD 收敛，反而使得 accuracy 的提升变得非常缓慢。所以这样看来，当 CNN 没有深到极易发生 gradient vanishing 时，sigmoid 或者 tanh 依然是首选。

Kernel size

关注的 feature 比较细微时宜用小 kernel，反之 kernel 尺寸可以大一些。在这个实验中，采用 5x5 的 kernel 效果要比 3x3 的要差。

Channel number

最让我意外的就是 channel 数量对训练结果的影响。我之前一直以为提升 channel 数量可以获得图像中更多模式信息，从而提高模型效果。也就是觉得 channel 越多越好。但是这个实验中我把每层的 channel 数都提高了一倍，accuracy 却大幅降低。可见神经网络设计还是要具体问题具体分析。。。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。