深度学习入门4——神经网络中的损失函数

本文链接：https://blog.youkuaiyun.com/Argulo/article/details/139754224

神经网络的可学习性指从训练数据中自动获取最优权重参数的性质。而使得神经网络可以学习，就少不了损失函数。神经网络学习的过程可以看作是最小化损失函数的输出值的过程。换句话说，找到了最小的损失函数值，我们也就找到了一组最优的权重参数。神经网络的学习中所用的指标称为损失函数（loss function）。这个损失函数可以使用任意函数，但一般用均方误差MSE（mean squared error）和交叉熵误差（cross entropy error）等。

对于实现手写数字5识别，直接想出可以识别手写数字5的专用算法很难。如果利用机器学习技术学习数字5图像的特征量，使用人为设计的特征量（SIFT、HOG）将图像数据转换为向量，然后对其使用SVM（支持向量机）或者KNN（k近邻算法）等分类器进行学习，不失为一种方法。第三种方法是利用深度学习技术，由神经网络从收集的数据中学习，找到规律。以上三种方法的人为介入是逐渐减少的（灰色代表人未介入）。

神经网络的优点是对所有的问题都可以用同样的流程来解决。无论是识别5，还是猫或人脸，其都可以通过学习所提供的数据，尝试发现待解决问题的模式。因此，神经网络解决问题与待处理的问题无关，可以将数据直接作为原始数据，进行“端对端”的学习。

在机器学习中，一般将数据分为训练数据和测试数据两部分来进行学习和实验。使用训练数据进行学习，寻找最优的参数。然后，使用测试数据评价训练得到的模型的实际能力，目的是展现模型的泛化能力。过拟合（over fitting）指的是一个模型在训练数据上表现得异常好，但在新的、未见过的数据上表现得非常差，即模型对训练数据的学习过于精确，以至于不能很好地泛化到其他数据上的情况。