吃瓜教程4——神经网络（西瓜书第5章）

最新推荐文章于 2025-06-15 12:13:21 发布

雾里看花的学习日常

最新推荐文章于 2025-06-15 12:13:21 发布

阅读量236

点赞数

分类专栏：吃瓜教程（西瓜书+南瓜书）文章标签：神经网络人工智能深度学习

本文链接：https://blog.youkuaiyun.com/weixin_72415930/article/details/132073051

版权

吃瓜教程（西瓜书+南瓜书）专栏收录该内容

5 篇文章

订阅专栏

本文介绍了M-P神经元，作为生物行为的数学模型，以及其在感知机中的应用。单个神经元仅限于线性可分数据，而神经网络通过多层结构实现非线性建模，如异或问题所示，能够处理线性不可分数据。神经网络不仅用于分类，还能做回归，具有强大的泛化能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、M-P神经元

M-P神经元（模拟生物行为的数学模型）

接受n个输入（通常是来自其他神经元）并给各个输入赋予权重加权和，然后和自身特有的阈值 $\theta$ 进行比较（做减法），最后经过激活函数（模拟“抑制”和“激活”）处理得到输出（通常是给下一个神经元）

$y =f \left ( \sum_{i = 1}^{n} w_{i}x_{i} - \theta \right ) = f\left ( w^{T}x + b \right )$

单个M-P神经元：感知机（sgn作激活函数）、对数几率回归（sigmoid作激活函数）

多个M-P神经元：神经网络

（机器学习三要素：模型、策略、算法）

感知机模型

数学角度：激活函数为sgn（阶跃函数）的神经元

$y =sgn \left ( w^{T}x - \theta \right ) =\left\{\begin{matrix} 1 ,&w^{T}x - \theta \geqslant 0 \\ 0 ,& w^{T}x - \theta < 0 \end{matrix}\right.$

其中， $x\in \mathbb{R}^{^{n}}$ 为样本的特征向量，是感知机模型的输入， $w,\theta$ 是感知机模型的参数， $w\in \mathbb{R}^{n}$ 为权重， $\theta$ 为阈值

几何角度：
给定一个线性可分的数据集T,感知机的学习目标是求得能对数据集T中的正负样本完全正确划分的超平面，其中 $w^{T}x -\theta$ 即为超平面方程(换句话说，只有线性可分的数据集才能用感知机）

n维空间的超平面（ $w^{T}x+b=0$ ,其中 $w,x\in \mathbb{R}^{n}$ ):

超平面方程不唯一

感知机学习策略

随机初始化w,b，将全体训练样本代入模型找出误分类样本，假设此时误分类样本合集为 $M\subseteq T$ ,对任意一个误分类样本 $(x,y)\in M$ 来说，当 $w^{T}x -\theta \geqslant 0$ 时，模型输出值为 $\hat{y}=1$ ,样本真实标记为y = 0，反之标记y = 1。综上恒有：

$\left ( \hat{y} -y \right )\left ( w^{T}x-\theta \right )\geqslant 0$

所以，给定数据集T，其损失函数可以定义为：

$L\left ( w,\theta \right )=\sum_{x\in M}(\hat{y}-y)(w^{T}x-\theta )$

此损失函数是非负的，若无误分类点，损失函数值为0；而且误分类点越少，误分类点离超平面越近，损失函数越小。

二、神经网络

由于像感知机这种单个神经元分类能力有限，只能分类线性可分的数据集，对于线性不可分的数据集则无能为力，但是多个神经元构成的神经网络能够分类线性不可分的数据集（西瓜书上异或问题的那个例子），且有理论证明了通甬近似定理）：只需一个包含足够多神经元的隐层，多层前馈网络（最经典的神经网络之一）就能以任意精度逼近任意复杂度的连续函数。因此，神经网络既能做回归，也能做分类，而且不需要复杂的特征工程。