2.7 神经网络
我们以讨论基于线性基础模型及其变体的监督学习模型为开始,包括内核机和支持向量机。 所有这些模型的共同点是,基本函数或特征映射是先验 a priori 选择的,不依赖于训练数据集 。 在2.5节中,我们介绍了决策树,这是第一个例子,在训练时根据 数据集 选择 基函数 。 具体而言,决策树基函数 ϕj(x)=1x∈Rjϕ_j(x) = 1_{x∈R_j}ϕj(x)=1x∈Rj 依赖于从数据中学习到的小区域{ Rj}\{\mathcal{R}_j\}{ Rj},例如使用递归分裂算法。
在这一节中,我们将介绍另一类 从数据中学习基函数 的模型: 神经网络 。 随着我们拥有的数据量和计算能力的增加,基于神经网络的机器学习模型,尤其是深度学习,已经变得越来越受欢迎。 “神经网络”一词源于这样一个事实,即这些模型最初是作为一种尝试,以数学精确的方式,模拟人类大脑中的神经相互作用而开发的。 然而,人们很快发现,这些模型过于简化,缺乏理解人类生理所需的复杂性。 然而,它们形成了一类强大的机器学习模型,这些模型具有独特的特性,值得研究。 下面,我们从浅神经网络的基础开始。
2.7.1 浅神经网络
为简单起见,让我们考虑一个d维的回归问题,使oracle函数为 f∗:Rd→Rf^∗: \mathbb{R} _d→\mathbb{R}f∗:Rd→R。浅神经网络对应以下假设空间:
其中,𝑤𝑗是隐藏层的权重,𝑏𝑗是隐藏层的biases,𝑣𝑗是输出层的权重,𝜎:ℝ→ℝ为激活函数。
现在,让我们介绍一些神经网络研究中常用的术语。
- 函数 σ:R→Rσ: \mathbb{R}→\mathbb{R}σ:R→R 称为 激活函数 activation function。受欢迎的选择包括:
但这个清单当然不是详尽无遗的。
-
接下来,参数 wjw_jwj 通常被称为权值,而 bjb_jbj 则被称为偏差。 回想一下,在线性模型中,我们倾向于通过在输入状态 xxx 上加上“1”来组合它们。然而,这里我们将明确地写出偏差项,以符合流行的符号。
-
我们将 vjv_jvj 称为系数,但在更深层次的模型中,它们也可以被视为权重。
-
最后,数字M是隐藏层的维数,这控制了模型的复杂性。
-
通常,我们将 hj=wjTx+bjh_j = w_j^T x + b_jh