人工神经网络:原理、学习类型、应用及性能分析
1. 人工神经网络基础概念
在人工神经网络(ANN)中,有几个关键的基础概念。首先是诱导局部场(ILF),用 $v_k$ 表示,它与局部连接(LC)输出 $u_k$ 以及神经元 $k$ 的激活函数电位相关,并且这种关联会受到偏置 $b_k$ 的影响,偏置 $b_k$ 代表人工神经元 $k$ 外部施加的偏置。可以将相关方程合并为 $v_k=\sum_{j = 1}^{m}w_{kj}x_j + b_k$。
激活函数在神经网络中起着重要作用,常见的激活函数有阈值函数、Sigmoid 函数和分段线性函数等,其中 Sigmoid 函数最为常用,它是一种逻辑函数,表达式为 $\varphi(v)=\frac{1}{1 + \exp(-av)}$,这里的 $a$ 表示 Sigmoid 函数的斜率参数。
2. 网络结构与架构
网络结构指的是单元的排列方式以及允许的连接类型。神经网络由一组通常用正整数标记的神经元组成,一个单元的输出会作为另一个单元输入的一部分。网络架构涉及计算单元的协调以及网络允许的各种连接。
常见的网络架构有前馈网络(FFN)和递归网络(RNs):
-
前馈网络(FFN)
:信息在网络中仅向前流动,网络的行为不依赖于过去。在 20 世纪 50 年代,Rosenblatt 提出了单层感知器,它只有一层,所有层和节点以向前的方式连接,但只能解决线性可分问题。为了克服单层前馈网络的局限性,多层前馈网络(MLFFN)应运而生,它有一个或多个隐藏层,也被称为多层感知器。在多层前馈网络的计算中,隐藏层的节点或神经元被称为不可见单元或隐藏神经元,可以使用反向传播算法(BPA)进行训练,并且它是统计应用中常用的神经网络类型。
-
递归网络(RNs)
:至少包含一个反馈连接。
3. 反向传播训练算法
反向传播算法(BPA)最早由 Werbos 在 1974 年提出,但当时未受到科学界的广泛关注。后来 Parker 在 1985 年对该技术进行了研究并发表了成果,不久后 Rumelhart 等人在 1986 年再次发现了这一技术,使得反向传播技术成为神经计算的重要支撑。
该算法使用成本函数(等于均方误差)来找出实际网络输出和所需网络输出之间的差异,并采用梯度下降法来降低成本函数。梯度下降技术是一种计算方法,用于寻找与反向传播训练算法一起使用的准确权重值。具体步骤如下:
1. 输入向量用于产生实际网络输出。
2. 将实际输出与期望输出(目标向量)进行比较。
3. 如果实际输出和所需输出之间的差异为零,则无需训练数据;否则,更改网络权重以减小这两个输出之间的差异。
4. 学习类型
调整神经网络参数以获得更好性能的过程通常称为学习,学习需要几个关键组件:一是修改网络参数后,功能应得到改善;二是需要对性能评估进行描述,并定义参数变化的规则;三是网络训练必须使用已知的历史数据。目前,学习算法主要分为以下三类:
-
监督学习(SL)
:如果性能函数是从误差度量的描述中推导出来的,则称为监督学习。通常误差被定义为 ANN 输出与预定义的外围所需指示之间的差异。在工业应用中,当所需功能明确时,监督学习范式非常重要。训练示例由输入向量 $x$ 和所需输出向量 $y$ 组成,训练过程会一直进行到神经网络“学会”将每个输入向量 $x$ 连接到其相应的输出向量 $y$(估计函数 $y = f(x)$)。在监督学习中,需要做出三个重要判断:选择误差度量、误差在网络中的传播方式以及对网络输出的限制(固定点学习或轨迹学习)。固定点学习只关注最终时间的行为,而轨迹学习会限制中间值。前馈网络只能通过固定点学习进行训练,而递归网络可以通过指示最终实例行为或路径后的行为进行训练。学习需要一个数据集进行网络训练,通常称为训练集,学习的性能需要在一个互斥的数据集(测试集)上进行验证。选择合适的训练集大小并提供所有潜在情况的代表性暴露非常重要。学习过程中,网络的目标是找到输入数据和所需性能之间的最佳映射。监督学习有三个与学习相关的重要特征:训练数据集的变量选择集和大小、训练算法和算法参数的选择以及何时停止学习以避免过度拟合,但目前没有确定这些参数的“公式”,只能遵循一些通用策略并进行大量测试。
-
无监督学习(UL)
:这种学习类型根据各种预定义的内部接口规则来改变网络权重,没有“外部教师”,因此也被称为自组织。自组织非常适合在具有冗余的复杂信号中进行属性检测(特征提取)。在无监督学习中,只提供输入向量 $x$,神经网络学习所有输入向量集合的一些内部特征。现代无监督算法进一步分为非竞争性和竞争性两类。
-
强化学习(RL)
:也称为奖励惩罚学习方法。在强化学习中,外部训练者会直接指出回复的价值(好或坏)。强化学习仍处于研究阶段,但它可能适用于在线学习。输入向量被定义后,神经网络计算后续输出,如果输出质量好,则相关的连接权重会得到改善(奖励),否则会降低(惩罚)。
5. 人工神经网络的应用
由于人工神经网络具有一些出色的特性,因此在许多领域都有广泛的应用:
-
图像处理和字符识别
:ANN 能够处理大量输入,推断出隐藏的、复杂的非线性关联,因此在图像和字符识别中发挥着巨大作用。例如,字符识别在欺诈检测(如银行欺诈)和国家安全措施中有很多应用。图像检测是一个不断发展的领域,从公共网络中的面部检测、医疗行业的癌症筛查到基于卫星的农业和国防服务的图像处理都有广泛需求。对 ANN 的研究为深度神经网络打开了大门,支持了“深度学习”,引发了人工智能、语音识别和编程语言等领域的创新,如自动驾驶汽车就是典型例子。
-
预测
:预测在商业的日常决策(如销售、产品间的预算分配、产能利用)、金融和财政政策、资金筹集和股票市场等方面都非常必要。预测问题往往很困难,例如预测股票价格涉及许多重要因素(有些已知,有些隐藏)。传统的预测模型在处理这些复杂的非线性关系时存在限制,而 ANN 能够建模并提取隐藏特征和关联,并且不像传统模型那样对输入和剩余分布有约束,因此可以提供持续的替代方案。目前,大多数 ANN 应用主要集中在预测领域,通过训练 ANN 模型可以确定变量之间的潜在联系。然而,ANN 模型的主要缺点是没有说明监控过程的实质性内部系统,但由于其预测比概念模型更准确,因此在大多数情况下仍被广泛应用。在统计方面,ANN 输出估计了在 NN 模型输入向量上训练的基本目标的均值,但 ANN 预测不提供关于采样误差和预测准确性的信息。对 ANN 模型应用的有限认可可能是由于在向输出传达置信区间(或预测区间)时存在复杂性,因此有必要研究计算与 ANN 模型预测相关的不确定性。现代研究表明,使用 ANN 对计数数据进行建模比传统统计模型(如广义线性模型、障碍模型、零膨胀模型等)具有更好的性能,因为传统模型依赖于线性、独立性、正态性等严格假设,而实际建模计数数据时可能无法满足这些假设。ANN 由于其非线性、非参数性质和自适应学习特性,在预测、估计、分类和预测等方面获得了显著声誉。
此外,ANN 还有其他一些常见应用,如:
- 给定一组数据时进行函数估计。
- 模式组织。
- 数据聚类、分类和概念化。
- 学习统计参数。
- 通过训练积累知识。
- 通过审查连接权重“获取”信息。
- 在神经网络结构中引入信息以进行近似推理。
6. 性能分析:以汽车保险数据为例
为了证明 ANN 的优越性,我们以 R 软件保险数据包中的汽车保险数据集为例进行分析。该数据集包含 120,000 条索赔记录,需要分析索赔数量,它受到驾驶员年龄、车辆价值和保险期限的影响。
| 索赔次数 | 频率(百分比) | 索赔次数 | 频率(百分比) | 索赔次数 | 频率(百分比) |
|---|---|---|---|---|---|
| 0 | 85.725 | 12 | 0.016 | 25 | 0.0033 |
| 1 | 9.8933 | 13 | 0.017 | 26 | 0.00083 |
| 2 | 2.496 | 14 | 0.007 | 27 | 0.0017 |
| 3 | 0.8575 | 15 | 0.005 | 29 | 0.00083 |
| 4 | 0.38 | 16 | 0.007 | 30 | 0.00083 |
| 5 | 0.2167 | 17 | 0.005 | 32 | 0.00083 |
| 6 | 0.1167 | 18 | 0.0033 | 33 | 0.00083 |
| 7 | 0.08 | 19 | 0.0025 | 36 | 0.00083 |
| 8 | 0.053 | 20 | 0.005 | 37 | 0.00083 |
| 9 | 0.04 | 21 | 0.0033 | 38 | 0.00083 |
| 10 | 0.03 | 22 | 0.0025 | 43 | 0.00083 |
| 11 | 0.021 | 23 | 0.0042 |
从频率分布可以看出,零索赔次数的比例很大(86%),并且数据的离散指数(ID)为 3.516,表明数据存在过度分散的情况。
研究对 10% 到 100% 的数据进行了分析,考虑了 70%:30% 和 80%:20% 两种不同的训练和测试比例,并计算了零膨胀泊松回归模型(ZIP)、障碍泊松回归模型(Hurdle)和 ANN 模型的均方误差(MSE)和相对效率(RE)。在制作 ANN 模型时,使用了反向传播算法(BPA),因为它在两个隐藏层的情况下能提供可靠且快速的近似。
| 序号 | 样本大小 (n) | 训练:测试 | ZIP 的 MSE | Hurdle 的 MSE | ANN 的 MSE | ANN/Hurdle | ANN/ZIP | Hurdle/ZIP | 最小 MSE 模型 |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 12000 | 80:20 | 0.6761 | 0.6771 | 0.6762 | 0.09986 | 1.00015 | 10.0154 | ZIP |
| 1 | 12000 | 70:30 | 0.9949 | 0.9949 | 0.9932 | 0.99827 | 0.99834 | 1.00007 | NN |
| 2 | 24000 | 80:20 | 1.1322 | 5.6629 | 1.1302 | 0.19958 | 0.99823 | 5.00168 | NN |
| 2 | 24000 | 70:30 | 0.9963 | 0.9963 | 0.9948 | 0.99851 | 0.9985 | 0.99999 | NN |
| 3 | 36000 | 80:20 | 0.6534 | 0.6534 | 0.6534 | 1 | 0.99999 | 0.99999 | NN |
| 3 | 36000 | 70:30 | 0.7512 | 0.7512 | 0.7505 | 0.99896 | 0.99895 | 0.99998 | NN |
| 4 | 48000 | 80:20 | 1.1386 | 1.1386 | 1.1385 | 0.99989 | 0.99991 | 1.00002 | NN |
| 4 | 48000 | 70:30 | 0.7919 | 0.7919 | 0.7925 | 1.00081 | 1.00082 | 1.00001 | ZIP |
| 5 | 60000 | 80:20 | 0.8312 | 0.8312 | 0.8316 | 1.00055 | 1.00055 | 1 | Hurdle |
| 5 | 60000 | 70:30 | 0.8326 | 0.8326 | 0.8316 | 0.99877 | 0.99876 | 0.99999 | NN |
| 6 | 72000 | 80:20 | 0.8312 | 0.8312 | 0.8316 | 1.00052 | 1.00055 | 1.00004 | ZIP |
| 6 | 72000 | 70:30 | 0.7843 | 0.7843 | 0.7850 | 1.00089 | 1.00089 | 1 | ZIP |
| 7 | 84000 | 80:20 | 0.9039 | 0.9039 | 0.9032 | 0.99919 | 0.99918 | 0.99999 | NN |
| 7 | 84000 | 70:30 | 0.9267 | 0.9268 | 0.9262 | 0.99938 | 0.99938 | 1 | NN |
| 8 | 96000 | 80:20 | 0.8566 | 0.8566 | 0.8565 | 0.99988 | 0.99991 | 1.00002 | NN |
| 8 | 96000 | 70:30 | 0.8405 | 0.8405 | 0.8403 | 0.99985 | 0.99983 | 0.99999 | NN |
| 9 | 108000 | 80:20 | 0.8874 | 0.8873 | 0.8869 | 0.9995 | 0.99944 | 0.99993 | NN |
| 9 | 108000 | 70:30 | 0.8441 | 0.8441 | 0.8440 | 0.99996 | 0.99995 | 0.99999 | NN |
| 10 | 120000 | 80:20 | 0.7321 | 0.7321 | 0.7320 | 0.9998 | 0.99980 | 1 | NN |
| 10 | 120000 | 70:30 | 0.7488 | 0.7488 | 0.7487 | 0.99988 | 0.99986 | 0.99999 | NN |
从结果来看,在 75% 的实验中,ANN 比其他两个模型表现更优,其归一化 MSE 相对较小。通过比较平均相对效率,对于该保险计数数据,ANN 比 ZIP 和 Hurdle 模型表现更好。例如,当比较 ANN 与 ZIP 和 Hurdle 模型的相对效率时,如果该值小于 1,则表明 ANN 是更优的模型。
为了避免 ANN 过拟合,考虑了两种不同的训练和测试比例:70% 的数据作为训练集,30% 作为测试集;80% 的数据作为训练集,20% 作为测试集。预测数据和实际数据的输出结果表明,在归一化 MSE 和相对效率方面,ANN 预测的索赔次数与实际索赔次数非常接近。
综上所述,对于过度分散的计数数据,在预测索赔次数时,ANN 比 Hurdle 和零膨胀泊松回归模型更准确,因为其 MSE 值更小。在比较平均相对效率时,ANN 对于该特定保险数据的表现优于 ZIP 和 Hurdle 模型。
人工神经网络:原理、学习类型、应用及性能分析
6.1 结果分析
6.1.1 均方误差(MSE)分析
均方误差(MSE)是衡量模型预测准确性的常用指标,它计算的是所有新观测值的平方误差的平均值。在本次对汽车保险数据的分析中,从表中数据可以看出,ANN 模型在多数情况下的 MSE 相对 ZIP 和 Hurdle 模型较小。例如,在样本大小为 24000,训练:测试比例为 80:20 时,ZIP 模型的 MSE 为 1.1322,Hurdle 模型的 MSE 为 5.6629,而 ANN 模型的 MSE 为 1.1302。这表明 ANN 模型的预测值与实际值的差异相对较小,具有更高的准确性。
6.1.2 相对效率(RE)分析
相对效率(RE)是比较不同模型预测能力的重要指标,它是 MSE 的比值。当 ANN 与 ZIP 和 Hurdle 模型的相对效率小于 1 时,说明 ANN 更高效。从表中数据可知,在大部分实验中,ANN 相对于 ZIP 和 Hurdle 模型的相对效率小于 1,这进一步证明了 ANN 在预测索赔次数方面的优越性。例如,在样本大小为 12000,训练:测试比例为 80:20 时,ANN/ZIP 的相对效率为 1.00015,虽然接近 1,但在其他很多实验中,该值小于 1,说明 ANN 整体表现更优。
6.2 不同模型性能对比的 mermaid 流程图
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(选择样本大小和训练:测试比例):::process
B --> C(计算 ZIP 模型 MSE):::process
B --> D(计算 Hurdle 模型 MSE):::process
B --> E(计算 ANN 模型 MSE):::process
C --> F(计算 ANN/ZIP 相对效率):::process
D --> G(计算 ANN/Hurdle 相对效率):::process
C --> H(计算 Hurdle/ZIP 相对效率):::process
F --> I{ANN/ZIP < 1?}:::decision
G --> J{ANN/Hurdle < 1?}:::decision
I -->|是| K(ANN 比 ZIP 更优):::process
I -->|否| L(ZIP 比 ANN 更优):::process
J -->|是| M(ANN 比 Hurdle 更优):::process
J -->|否| N(Hurdle 比 ANN 更优):::process
K --> O(记录结果):::process
L --> O
M --> O
N --> O
O --> P(重复不同样本大小和比例):::process
P --> Q(得出最终结论):::process
Q --> R([结束]):::startend
7. 结论与展望
7.1 结论总结
通过对汽车保险数据的实际研究,对比了零膨胀泊松回归模型(ZIP)、障碍泊松回归模型(Hurdle)和人工神经网络(ANN)对过度分散计数数据的建模效果。从均方误差(MSE)和相对效率(RE)的角度进行分析,结果表明:
- 在预测索赔次数方面,ANN 始终比 Hurdle 和零膨胀泊松回归模型更准确,因为其 MSE 值相对 ZIP 和 Hurdle 回归模型更小。
- 比较平均相对效率时,ANN 对于该特定保险数据的表现优于 ZIP 和 Hurdle 模型。这说明 ANN 在处理复杂的非线性关系和过度分散数据方面具有显著优势。
7.2 未来研究方向
虽然 ANN 在本次研究中表现出色,但仍有一些方面值得进一步研究和探索:
-
不确定性研究
:如前文所述,ANN 预测不提供关于采样误差和预测准确性的信息,对 ANN 模型应用的有限认可可能是由于在向输出传达置信区间(或预测区间)时存在复杂性。未来需要深入研究计算与 ANN 模型预测相关的不确定性,以提高其在实际应用中的可靠性。
-
参数优化
:在学习过程中,训练数据集的变量选择集和大小、训练算法和算法参数的选择以及何时停止学习以避免过度拟合等问题,目前没有确定的“公式”。未来可以通过更多的实验和算法优化,找到更适合不同数据集的参数组合,进一步提高 ANN 模型的性能。
-
拓展应用领域
:ANN 已经在图像处理、字符识别、预测等领域取得了广泛应用,但在更多新兴领域,如量子计算、生物信息学等,仍有很大的应用潜力。未来可以探索 ANN 在这些领域的应用,为解决复杂问题提供新的思路和方法。
8. 人工神经网络应用拓展思考
人工神经网络的发展为解决各种复杂问题提供了强大的工具,但在实际应用中,还需要考虑以下几个方面:
-
数据质量
:ANN 的性能高度依赖于数据的质量和数量。在使用 ANN 进行建模时,需要确保数据的准确性、完整性和代表性,避免数据噪声和偏差对模型性能的影响。
-
模型解释性
:虽然 ANN 在预测方面表现出色,但它的“黑盒”性质使得其内部决策过程难以解释。在一些对解释性要求较高的领域,如医疗诊断、金融风险评估等,需要开发新的方法来提高 ANN 模型的解释性,以便更好地理解和信任模型的预测结果。
-
计算资源
:训练复杂的 ANN 模型通常需要大量的计算资源和时间。在实际应用中,需要根据具体情况选择合适的计算平台和算法,以提高训练效率和降低成本。
以下是一个关于人工神经网络应用考虑因素的表格总结:
| 考虑因素 | 具体内容 |
| — | — |
| 数据质量 | 确保数据准确、完整和具有代表性,避免噪声和偏差 |
| 模型解释性 | 开发方法提高模型的解释性,增强对预测结果的信任 |
| 计算资源 | 选择合适的计算平台和算法,提高训练效率和降低成本 |
总之,人工神经网络作为一种强大的机器学习工具,在各个领域都有着广阔的应用前景。通过不断的研究和改进,相信 ANN 将在未来发挥更大的作用,为解决各种复杂问题提供更有效的解决方案。
超级会员免费看

被折叠的 条评论
为什么被折叠?



