利用飞桨实现表情分类

最新推荐文章于 2022-11-18 23:45:23 发布

D星尘

最新推荐文章于 2022-11-18 23:45:23 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：深度学习神经网络

本文链接：https://blog.youkuaiyun.com/dingjin2014/article/details/107334614

这篇博客详细介绍了如何利用飞桨动态图构建和训练一个卷积神经网络（CNN）进行表情分类任务。首先，介绍了数据准备，包括数据集的来源、结构以及如何将数据划分为训练集和验证集。接着，讲解了CNN网络结构，包括卷积层、池化层的作用和工作原理。然后，展示了模型训练和评估的步骤，包括模型的构建、训练循环、损失计算和精度评估。最后，进行了模型预测并给出了预测示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本次案例我们讲解的是如何使用飞桨动态图版本实现一个表情分类任务。在本次案例中，我们可以简单地将人脸表情分类视为一个图像分类任务。也就是说，向模型输入一张表情图像，模型能够对表情的类别进行识别并输出类别结果，如下图所示。

案例中使用的数据均来自互联网公开数据集。该数据集中包含positive和negative两种表情，共7200余张图片，图片尺寸为64*64（大部分为单通道图像，个别图像为3通道）的灰度图像，在实践过程中，我们将数据集按照1：9的比例划分为验证集和训练集。数据图像示例如下。

在本实践中，我们采用的是卷积神经网络（Convolution Neural Network，简称CNN）。卷积神经网络（CNN）是深度学习的一个经典网络模型，它可以看作是深度神经网络（DNN）的一种特殊形式。卷积神经网络主要由卷积层、池化层和全联接层三种网络层构成，在卷积层与全联接层后通常会接激活函数。

CNN网络结构示例如下图所示。

卷积层

卷积层会对输入的特征图（或原始数据）进行卷积操作，输出卷积后产生的特征图。卷积层是卷积神经网络的核心部分。输入到卷积层的特征图是一个三维数据，不仅有宽、高两个维度，还有通道维度上的数据，因此输入特征图和卷积核可用三维特征图表示。如下图所示，对于一个（3，6，6）的输入特征图，卷积核大小为（3，3，3），输出大小为（1，4，4），当卷积核窗口滑过输入时，卷积核与窗口内的输入元素作乘加运算，并将结果保存到输出相应的位置。

上图中卷积操作输出了一张特征图，即通道数为1的特征图，而一张特征图包含的特征数太少，在大多数计算机视觉任务中是不够的，所以需要构造多张特征图，而输入特征图的通道数又与卷积核通道数相等，一个卷积核只能产生一张特征图，因此需要构造多个卷积核。在RGB彩色图像上使用多个卷积核进行多个不同特征的提取，示意图如下：