本文重点
我们上一节课程中学习了几种非线性激活函数,也知道了哪种非线性激活函数比较好,那么你知道为什么神经网络中就一定要使用非线性激活函数吗?本节课程就要告诉你,为什么神经网络中必须使用非线性激活函数。
线性模型的局限性
无法解决非线性问题
线性模型是指输出是输入的线性组合,即输出y可以表示为输入x的线性函数,形式为y=Wx+b,其中W是权重矩阵,b是偏置项。然而,现实世界中的大多数问题都是非线性的。例如,图像识别、语音识别和自然语言处理等任务中的特征关系往往是复杂的、非线性的。线性模型无法捕捉这些复杂的非线性关系,因此其表达能力有限。
特征组合能力弱
线性模型无法有效地组合多个特征以形成新的、有意义的特征。在神经网络中,每一层的神经元可以接收来自前一层的多个神经元的输入,并通过非线性激活函数处理这些输入。这种组合方式可以形成更高层次的特征表示,从而增强模型的表达能力。如果没有非线性激活函数,每一层的输出都将是输入的线性组合,无法形成新的特征。
神经网络不使用非线性激活函数
假如我们不使用非线性激活函数,而是使用线性激活函数(线性激活函数就是输入什么输出就是什么),那么此时神经网络的正向传播方程为:
那么此时模型的输出y^(a[2])仅仅是输入特征x的线性组