神经网络说明
神经网络(Neural Network) 是一种受生物神经系统启发的计算模型,核心目标是模拟人脑的数据学习和模式识别能力。其基本特点如下:
-
结构与层级
- 由人工神经元(节点)分层连接构成,包含:
- 输入层(接收原始数据)
- 隐藏层(提取抽象特征,可多层叠加形成“深度”网络)
- 输出层(生成预测结果)
- 层间通过权重(Weight)连接,权重决定信号传递强度。
- 由人工神经元(节点)分层连接构成,包含:
-
核心机制
- 前向传播:数据从输入层流向输出层,通过加权求和与激活函数(如 ReLU、Sigmoid)引入非线性,使网络能拟合复杂关系。
- 反向传播:根据输出误差,利用梯度下降自动调整权重,优化目标函数(如交叉熵、均方误差)。
-
学习能力
- 通过大量数据训练,网络自动调整参数,逐步减少预测误差。
- 具备特征自学习能力,无需人工设计特征工程。
神经网络如同一个“自适应函数工厂”,输入原始数据(如像素),通过多层加工(隐藏层),最终输出高阶抽象结果(如“图片中是猫”的概率)。
其训练过程类似“反复试错校准”,最终在数据中提炼出通用规律。
神经网络分类
神经网络可以分为三种主要类型:前馈神经网络、反馈神经网络和图神经网络。
前馈神经网络
前馈神经网络(feedforward neural network)是一种简单的神经网络,也被称为多层感知机(multi-layer perceptron,简称MLP),其中不同的神经元属于不同的层,由输入层-隐藏层-输出层构成,信号从输入层往输出层单向传递,中间无反馈,其目的是为了拟合某个函数,由一个有向无环图表示。
前馈神经网络(Feedforward Neural Network)中几种常见类型卷积神经网络、BP神经网络、RBF神经网络、感知器网络的详细解说:
感知器网络(Perceptron Network)
-
基本结构
最简单的单层前馈网络,由输入层和输出层组成,无隐藏层。每个输入节点与输出节点直接相连,通过权重和激活函数生成二分类结果。 -
工作原理
输入向量通过加权求和后,经阶跃函数(如符号函数)输出0或1。例如:
y = s t e p ( w 1 x 1 + w 2 x 2 + b ) y=step(w_1x_1 + w_2x_2 + b) y=step(w1x1+w2x2+b) -
应用场景
线性可分的二分类问题(如逻辑门中的AND/OR)。 -
局限性
无法解决非线性可分问题(如XOR异或问题)。
BP神经网络(Backpropagation Neural Network)
- 基本结构
多层感知器(Multi-Layer Perceptron, MLP),包含输入层、至少一个隐藏层和输出层,使用反向传播算法训练。 - 工作原理
- 前向传播:数据逐层加权求和,经非线性激活函数(如Sigmoid、ReLU)传递。
- 反向传播:根据损失函数计算梯度,通过链式法则逐层更新权重。
- 核心特点
- 能够拟合任意连续函数(万能近似定理)。
- 需大量标注数据,易受梯度消失/爆炸问题影响。
- 应用场景
通用分类与回归任务(如房价预测、手写数字识别)。
RBF神经网络(Radial Basis Function Network)
- 基本结构
包含输入层、单隐藏层(使用径向基函数)和线性输出层。 - 工作原理
- 隐藏层:通过径向基函数(如高斯函数)计算输入与中心点的距离:
ϕ ( ∣ ∣ x − c i ∣ ∣ ) = e − ϵ ∣ ∣ x − c i ∣ ∣ 2 \phi(||x - c_i||) = e^{-\epsilon ||x - c_i||^2} ϕ(∣∣x−ci∣∣)=e−ϵ∣∣x−ci∣∣2 - 输出层:对隐藏层输出进行线性加权求和。
- 隐藏层:通过径向基函数(如高斯函数)计算输入与中心点的距离:
- 核心特点
- 局部逼近能力强,训练速度通常快于BP网络。
- 需预先确定隐藏层中心点(可通过聚类算法)。
- 应用场景
函数逼近、时间序列预测、模式分类(如语音识别)。
卷积神经网络(Convolutional Neural Network, CNN)
- 基本结构
专为网格数据(如图像)设计,包含卷积层、池化层和全连接层。 - 核心组件
- 卷积层:使用卷积核提取局部特征(如边缘、纹理)。
- 池化层(如Max Pooling):降维并增强平移不变性。
- 全连接层:整合高层特征进行分类。
- 工作原理
通过多层卷积和池化逐步抽象特征,最后经全连接层输出结果。 - 优势
- 参数共享减少计算量,局部感知适应空间相关性。
- 自动学习多层次特征(从低级到高级)。
- 应用场景
图像分类(ResNet)、目标检测(YOLO)、语义分割(U-Net)。
对比总结
网络类型 | 核心特点 | 典型应用场景 | 局限性 |
---|---|---|---|
感知器 | 单层结构,仅处理线性可分问题 | 简单二分类 | 无法解决非线性问题 |
BP神经网络 | 多层结构,万能逼近能力 | 通用分类/回归 | 梯度问题,需大量数据 |
RBF网络 | 单隐藏层,径向基函数,快速训练 | 函数逼近、模式分类 | 中心点选择影响性能 |
CNN | 卷积操作提取空间特征,参数共享 | 图像/视频处理 | 对序列数据适应性较弱 |
- 前馈神经网络的共性:
数据单向流动(输入→输出),无循环或反馈连接,通常需监督学习。 - 扩展变体:
如深度前馈网络(DNN)、自编码器(Autoencoder)等均基于前馈结构,但引入不同优化策略。
反馈神经网络
反馈神经网络(feedback neural network)的输出不仅与当前输入以及网络权重有关,还和网络之前的输入有关。它是一个有向循环图或是无向图,具有很强的联想记忆能力和优化计算能力。
反馈神经网络(feedback neural network)中常用的模型结构有:循环神经网络RNN、Hopfield网络、玻尔兹曼机、LSTM等。以下是反馈神经网络(Feedback Neural Network)中几种重要类型的详细解说:
循环神经网络(RNN, Recurrent Neural Network)
-
基本结构
包含循环连接,使网络具有记忆功能。每个时间步的隐藏状态 ( h_t ) 依赖于当前输入 ( x_t ) 和前一步的隐藏状态 ( h_{t-1} )。
核心公式:
h t = σ ( W h h t − 1 + W x x t + b ) h_t = \sigma(W_h h_{t-1} + W_x x_t + b) ht=σ(Whht−1+Wxxt+b)
( σ 为激活函数,如 t a n h 或 R e L U ) ( \sigma 为激活函数,如 tanh 或 ReLU) (σ为激活函数,如tanh或ReLU) -
工作原理
通过时间展开(Unrolling)处理序列数据,共享参数跨时间步,捕捉时序依赖关系。例如,文本中前一个词影响后一个词的预测。 -
核心特点
- 擅长处理序列数据(时间序列、自然语言)。
- 存在梯度消失/爆炸问题,难以学习长距离依赖。
-
应用场景
语言建模、时间序列预测(股票价格)、语音识别。 -
局限性
对长序列建模能力有限,训练稳定性较差。
Hopfield 网络(Hopfield Network)
-
基本结构
全连接的无向图,神经元(节点)状态为二值(±1 或 0/1),通过能量函数描述系统稳定性。 -
工作原理
- 能量函数:
E = − 1 2 ∑ i , j w i j s i s j + ∑ i b i s i E = -\frac{1}{2} \sum_{i,j} w_{ij} s_i s_j + \sum_i b_i s_i E=−21i,j∑wijsisj+i∑bisi
( w i j 为连接权重, s i 为神经元状态) ( w_{ij} 为连接权重, s_i 为神经元状态) (wij为连接权重,si为神经元状态) - 异步更新:每次随机选择一个神经元更新状态,直至能量收敛到局部极小值。
- 能量函数:
-
核心特点
- 联想记忆:通过存储模式(记忆)恢复完整数据(如补全残缺图像)。
- 容量有限(约存储 0.14N 个模式,N 为神经元数量)。
-
应用场景
优化问题(旅行商问题)、内容寻址记忆、噪声数据恢复。 -
局限性
易陷入伪状态(Spurious States),存储容量较低。
玻尔兹曼机(Boltzmann Machine)
-
基本结构
无向图结构的随机神经网络,包含可见层和隐藏层,神经元状态为二值(0/1 或 ±1),节点间全连接。 -
工作原理
- 概率模型:状态概率由能量函数决定,服从玻尔兹曼分布:
P ( s ) = e − E ( s ) / T ∑ s ′ e − E ( s ′ ) / T P(\mathbf{s}) = \frac{e^{-E(\mathbf{s})/T}}{\sum_{\mathbf{s'}} e^{-E(\mathbf{s'})/T}} P(s)=∑s′e−E(s′)/Te−E(s)/T - 训练方法:通过对比散度(Contrastive Divergence)调整权重,最大化可见数据的似然。
- 概率模型:状态概率由能量函数决定,服从玻尔兹曼分布:
-
核心特点
- 无监督学习,可建模复杂概率分布。
- 计算复杂度高,需马尔可夫链蒙特卡洛(MCMC)采样。
-
应用场景
协同过滤(推荐系统)、特征学习、降维。 -
局限性
训练速度慢,难以扩展到大规模网络。
长短期记忆网络(LSTM, Long Short-Term Memory)
-
基本结构
RNN 的改进变体,引入门控机制(遗忘门、输入门、输出门)和细胞状态(Cell State),增强长期记忆能力。 -
工作原理
- 遗忘门:决定丢弃哪些历史信息。
- 输入门:筛选当前输入的有用信息更新细胞状态。
- 输出门:基于细胞状态生成当前输出。
核心公式:
f t = σ ( W f [ h t − 1 , x t ] + b f ) (遗忘门) f_t = \sigma(W_f [h_{t-1}, x_t] + b_f) (遗忘门) ft=σ(Wf[ht−1,xt]+bf)(遗忘门)
i t = σ ( W i [ h t − 1 , x t ] + b i ) (输入门) i_t = \sigma(W_i [h_{t-1}, x_t] + b_i) (输入门) it=σ(Wi[ht−1,xt]+bi)(输入门)
i t = σ ( W i [ h t − 1 , x t ] + b i ) (输入门) i_t = \sigma(W_i [h_{t-1}, x_t] + b_i) (输入门) it=σ(Wi[ht−1,xt]+bi)(输入门)
C ~ t = tanh ( W C [ h t − 1 , x t ] + b C ) (候选状态) \tilde{C}_t = \tanh(W_C [h_{t-1}, x_t] + b_C) (候选状态) C~t=tanh(WC[ht−1,xt]+bC)(候选状态)
C t = f t ⊙ C t − 1 + i t ⊙ C ~ t (细胞状态更新) C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t (细胞状态更新) Ct=ft⊙Ct−1+it⊙C~t(细胞状态更新)
h t = o t ⊙ tanh ( C t ) h_t = o_t \odot \tanh(C_t) ht=ot⊙tanh(Ct)
-
核心特点
- 解决 RNN 的梯度消失问题,可捕捉长距离依赖。
- 参数较多,计算成本较高。
-
应用场景
机器翻译(Seq2Seq)、文本生成、视频动作识别。 -
局限性
模型复杂度高,对超参数敏感。
对比总结
网络类型 | 核心机制 | 典型应用场景 | 局限性 |
---|---|---|---|
RNN | 时间展开 + 隐藏状态传递 | 短序列建模(语言模型) | 长时依赖能力弱 |
Hopfield | 能量最小化 + 异步更新 | 联想记忆、优化问题 | 存储容量低,易陷伪状态 |
玻尔兹曼机 | 概率模型 + 随机采样 | 无监督特征学习 | 训练效率低,计算复杂 |
LSTM | 门控机制 + 细胞状态 | 长序列任务(翻译、生成) | 参数量大,资源消耗高 |
- 反馈神经网络的共性:
数据流动存在循环或反馈路径,可处理动态时序或关联性任务,具有记忆和状态保持能力。 - 扩展变体:
- GRU(门控循环单元):简化版 LSTM,合并遗忘门与输入门。
- 双向RNN:结合正向和反向时间步信息,增强上下文理解。
- 神经图灵机(NTM):通过外部记忆模块扩展网络记忆容量。
图神经网络
图(graph)是一种在拓扑空间内按图结构组织来关系推理的函数集合,包括社交网络、知识图谱、分子图神经网络等。
图神经网络通常有以下几种网络模型:图卷积网络、图自编码器、图生成网络、图循环网络、图注意力网络。
以下是图神经网络(Graph Neural Networks, GNNs)中几种主要模型的详细解说:
图卷积网络(Graph Convolutional Network, GCN)
- 基本思想
将传统卷积操作扩展到图结构数据,通过聚合相邻节点特征更新节点表示,捕捉局部拓扑关系。 - 核心机制
- 消息传递:每个节点聚合邻居节点的特征信息。
- 归一化:对聚合结果进行归一化处理(如度矩阵),避免特征尺度差异。
核心公式:
H ( l + 1 ) = σ ( D ~ − 1 2 A ~ D ~ − 1 2 H ( l ) W ( l ) ) H^{(l+1)} = \sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right) H(l+1)=σ(D~−21A~D~−21H(l)W(l))
( A ~ = A + I 为带自环的邻接矩阵, D ~ 为度矩阵, σ 为激活函数) ( \tilde{A} = A + I 为带自环的邻接矩阵, \tilde{D} 为度矩阵, \sigma 为激活函数) (A~=A+I为带自环的邻接矩阵,D~为度矩阵,σ为激活函数)
- 应用场景
节点分类(社交网络用户标签预测)、图分类(分子属性预测)、推荐系统。 - 优缺点
- 优点:简单高效,适合同构图(Homogeneous Graph)。
- 缺点:难以处理异构图(Heterogeneous Graph)和动态图。
图自编码器(Graph Autoencoder, GAE)
- 基本思想
利用自编码器结构,学习图的低维嵌入表示,通过编码-解码过程实现图重构或生成。 - 核心机制
- 编码器:使用 GCN 等模型将节点映射为低维向量(如 Z = GCN ( X , A ) Z = \text{GCN}(X, A) Z=GCN(X,A))。
- 解码器:基于嵌入向量重构邻接矩阵(如 A ^ = σ ( Z Z T ) \hat{A} = \sigma(Z Z^T) A^=σ(ZZT))。
- 损失函数:衡量原始图与重构图之间的差异(如交叉熵损失)。
- 应用场景
图嵌入表示学习(用于下游任务)、链接预测(预测缺失边)、异常检测。 - 优缺点
- 优点:无监督学习,可捕获全局结构特征。
- 缺点:解码器设计复杂,对稀疏图效果有限。
图生成网络(Graph Generative Network)
- 基本思想
生成符合真实图分布的新图结构,可逐步生成节点、边或全图。 - 核心机制
- 顺序生成:按顺序生成节点和边(如使用 RNN 或 Transformer)。
- 概率建模:基于隐变量模型(如 VAE、GAN)生成图结构。
- 图匹配:通过强化学习优化生成图的属性(如分子有效性)。
- 应用场景
分子生成(药物发现)、社交网络合成、3D 点云生成。 - 优缺点
- 优点:支持复杂图结构的生成。
- 缺点:训练难度大,生成效率低。
图循环网络(Graph Recurrent Network, GRN)
- 基本思想
结合循环神经网络(RNN)与图结构,处理动态图或时序图数据。 - 核心机制
- 时序建模:在每个时间步更新节点状态,考虑历史状态和当前图结构。
- 门控机制:类似 LSTM/GRU,控制信息传递(如 TGAT:时序图注意力网络)。
公式示例:
h v ( t + 1 ) = RNN ( h v ( t ) , AGGREGATE ( { h u ( t ) ∣ u ∈ N ( v ) } ) ) h_v^{(t+1)} = \text{RNN}\left(h_v^{(t)}, \text{AGGREGATE}(\{h_u^{(t)} \mid u \in \mathcal{N}(v)\})\right) hv(t+1)=RNN(hv(t),AGGREGATE({hu(t)∣u∈N(v)}))
- 应用场景
动态社交网络分析、交通流量预测、流行病传播建模。 - 优缺点
- 优点:适应动态变化的图结构。
- 缺点:计算复杂度高,长期依赖问题仍存在。
图注意力网络(Graph Attention Network, GAT)
- 基本思想
引入注意力机制,自适应地为不同邻居节点分配聚合权重。 - 核心机制
- 注意力系数:计算节点 ( i ) 与邻居 ( j ) 的注意力得分:
e i j = LeakyReLU ( a T [ W h i ∥ W h j ] ) e_{ij} = \text{LeakyReLU}(a^T [W h_i \| W h_j]) eij=LeakyReLU(aT[Whi∥Whj]) - 归一化权重:使用 softmax 归一化注意力系数:
α i j = exp ( e i j ) ∑ k ∈ N ( i ) exp ( e i k ) \alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k \in \mathcal{N}(i)} \exp(e_{ik})} αij=∑k∈N(i)exp(eik)exp(eij) - 特征聚合:加权求和邻居特征:
h i ′ = σ ( ∑ j ∈ N ( i ) α i j W h j ) h_i' = \sigma\left(\sum_{j \in \mathcal{N}(i)} \alpha_{ij} W h_j\right) hi′=σ j∈N(i)∑αijWhj
- 注意力系数:计算节点 ( i ) 与邻居 ( j ) 的注意力得分:
- 应用场景
异构图建模(如学术论文引用网络)、推荐系统(用户-商品交互图)。 - 优缺点
- 优点:可解释性强,适应异构邻居重要性差异。
- 缺点:计算开销随邻居数量线性增长。
对比总结
模型类型 | 核心特点 | 典型应用场景 | 局限性 |
---|---|---|---|
图生成网络 | 邻域特征均值聚合,简单高效 | 同构图节点分类 | 忽略节点间重要性差异 |
图自编码器 | 无监督嵌入学习,重构图结构 | 链接预测、异常检测 | 解码器设计复杂 |
图生成网络 | 生成新图结构,支持概率建模 | 分子生成、社交网络合成 | 训练不稳定,生成速度慢 |
图循环网络 | 结合时序与图结构,处理动态变化 | 交通流量预测、动态网络 | 长期依赖问题未完全解决 |
图注意力网络 | 注意力机制加权聚合,适应异构关系 | 异构图建模、推荐系统 | 计算复杂度高 |
- 图神经网络的共性:
以图结构为输入,通过消息传递、聚合、更新三步迭代,学习节点/图级别的表征。 - 前沿方向:
- 异构图神经网络(HGNN):处理包含多种节点/边类型的图。
- 时空图网络(STGNN):融合时空依赖(如交通预测)。
- 可解释性GNN:可视化注意力权重或子图重要性。