深度学习建模:从基础到实践
1. 深度学习基础
1.1 人工神经网络简介
自然神经网络中,神经元作为信息处理单元,构成决策系统,帮助我们完成如识别朋友面孔等任务。人工神经网络(ANNs)的工作原理与之相似,但不同于人体中庞大的神经元网络处理所有决策,ANNs是针对特定问题设计的,例如用于图像分类、信用风险评估、目标检测等。为便于表述,我们后续使用“神经网络”代替“ANNs”。
这里重点介绍处理表格数据的全连接神经网络(FCNNs),它和多层感知器(MLPs)在很多资料中可互换使用。FCNNs用于监督学习时,有一个输入层、一个输出层和一个或多个隐藏层。当神经网络(包括输入层和输出层)超过三层时,被称为深度神经网络,深度学习即指使用这类网络进行建模。
输入层就是用于建模的数据点特征,输出层的神经元数量由具体问题决定,如二元分类问题中,输出层的两个神经元代表两个类别。隐藏层的数量和大小是FCNN的超参数,可进行优化以提升性能。
每个FCNN神经元接收上一层神经元输出值的加权和,对该和值进行线性或非线性变换后,将结果输出到下一层神经元。神经元输入值计算中使用的权重是训练过程中学习到的参数,非线性变换通过预设的激活函数实现。FCNN能够建立输入特征值和输出之间复杂的非线性关系,使其在处理不同输入输出关系时具有灵活性,而激活函数正是这种复杂性和灵活性的关键。
常见的激活函数如修正线性单元(ReLU)和指数线性单元(ELU),以特定方式变换值,适用于不同层,为神经网络建模提供灵活性。例如,sigmoid和softmax函数常用于输出层,将输出神经元的分数转换为0到1之间的值,即预测概率。还有高斯误差线性单元(GELU),在生成式预
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



