神经网络与深度学习-学习笔记1-优快云博客

本文链接：https://blog.youkuaiyun.com/Called_None/article/details/147802004

一、人工智能、机器学习与深度学习

（一）定义

人工智能（Artificial Intelligence）：通过机器实现需借助人类智慧完成的任务，涵盖模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。
机器学习：人工智能的关键分支，利用经验（即数据）提升计算机系统在特定任务上的性能，是实现智能化的核心途径。
深度学习：机器学习的一个重要领域，模拟人脑的神经网络结构，通过多层非线性变换对数据进行特征提取和表示学习。

（二）方法论

仿生角度：模仿生物（如人脑）的信息处理机制，构建人工神经网络模型，是深度学习的理论基础。
符号学角度：借助统计概率、数理逻辑、博弈搜索等技术实现智能行为，与机器学习的早期方法密切相关。
行为学角度：基于控制论，让机器通过与环境交互进行自我进化，强化学习是其典型代表。
交叉角度：融合以上多种方法论，形成更强大的人工智能系统。

二、机器学习与深度学习的应用场景与挑战

（一）应用领域

图像与视频处理：如目标检测、图像分割、视频分析等，广泛应用于安防、医疗影像诊断、自动驾驶等领域。
文本与语言处理：包括机器翻译、情感分析、文本生成等，是自然语言处理（NLP）的核心任务。
语音与音频处理：语音识别、语音合成、音频分类等，在智能语音助手、会议转录等场景中发挥重要作用。
生物信息学：分析基因表达数据、蛋白质结构预测等，助力生物医学研究。
推荐系统：基于用户行为数据进行个性化推荐，如电商产品推荐、视频推荐等。
地质与环境科学：如气候变化建模、地质灾害预测等。

（二）大数据的机遇与挑战

数据量爆发式增长：随着互联网、物联网的发展，非结构化数据（如图像、文本、语音等）呈爆炸式增长，为机器学习和深度学习提供了丰富的训练素材。
传统方法的局限性：面对海量、高维、复杂的非结构化数据，传统的机器学习方法（如决策树、支持向量机等）在特征提取、模型拟合等方面表现乏力，难以取得理想效果。
特征工程瓶颈：在传统机器学习流程中，特征工程是关键步骤，但手动设计特征费时费力，且难以挖掘数据中的深层语义信息。深度学习通过自动特征学习，有效解决了这一问题。

（三）人类信息分级处理的启示

视觉信息处理的分级结构：人类视觉系统从输入层的像素信息，经多层处理（如边缘检测、特征组合等），逐步形成对物体的抽象语义表示。这一分级处理机制为深度学习模型的设计提供了生物学依据。
深度学习模型的层次化特征表示：深度学习模型（如卷积神经网络）通过多层神经网络结构，自动学习数据的层次化特征表示，底层网络提取简单特征（如边缘、纹理），高层网络组合低层特征形成复杂语义表示，从而实现对图像、文本等复杂数据的高效处理。

三、神经网络与深度学习的发展历程

（一）发展历程概览

推理期（1943-1956）：1943 年，McCulloch 和 Pitts 提出神经元的数学模型，为神经网络的发展奠定了理论基础。1956 年，达特茅斯会议标志着人工智能学科的诞生。
知识期（1957-1974）：1957 年，Rosenblatt 提出感知机模型，推动了神经网络的研究。1969 年，Minsky 和 Papert 在《感知机》一书中指出感知机的局限性（如无法解决 XOR 问题），导致神经网络研究进入低谷。
学习期（1975-2005）：1986 年，Rumelhart 和 McClelland 等人提出反向传播（BP）算法，为多层神经网络的训练提供了有效方法，神经网络研究迎来复兴。1995 年，SVM 算法等传统机器学习方法得到发展。
爆发期（2006-2020）：2006 年，Hinton 等人提出深度学习方法，通过构建深层神经网络模型，在图像识别、语音识别等领域取得突破性进展。此后，深度学习技术在各领域广泛应用，推动了人工智能的快速发展。
通用人工智能与大模型时代（2021 至今）：以 Transformer 架构为代表的预训练大模型（如 GPT 系列）在自然语言处理、多模态任务等领域取得了卓越成果，推动人工智能向更通用、更强大的方向发展。

（二）关键技术节点

1943 年：McCulloch 和 Pitts 提出神经元的数学模型，开启了神经网络的理论研究。
1957 年：Rosenblatt 提出感知机模型，是神经网络发展的重要里程碑。
1969 年：Minsky 和 Papert 的《感知机》一书指出感知机的局限性，导致神经网络研究陷入低谷。
1982 年：Hopfield 提出 Hopfield 网络，用于解决组合优化问题（如旅行商问题）。
1986 年：Rumelhart 和 McClelland 提出反向传播算法，为多层神经网络的训练提供了有效方法。
1995 年：SVM 算法等传统机器学习方法得到发展，为解决分类问题提供了新工具。
2006 年：Hinton 等人提出深度学习方法，开启深度学习的爆发式发展。
2011 年：微软在语音识别领域应用深度学习技术，显著提升语音识别准确率。
2012 年：Hinton 的学生 Alex Krizhevsky 提出 AlexNet 模型，在 ImageNet 大规模视觉识别挑战赛中取得冠军，推动深度学习在计算机视觉领域的广泛应用。
2016 年：AlphaGo 击败世界围棋冠军李世石，引发全球对人工智能的关注。
2021 年：以 Transformer 架构为基础的预训练大模型（如 GPT-3.5）在自然语言处理领域取得突破性进展，推动通用人工智能的发展。

四、神经网络与深度学习的应用趋势

（一）人工智能发展的三个级别

弱人工智能（Narrow AI）：专注于特定任务的人工智能系统，在图像识别、语音识别、推荐系统等单个领域表现出色，但缺乏通用智能。
强人工智能（General AI）：具备与人类相当的智能水平，能够在多种任务上表现出与人类相似的能力，目前仍处于研究阶段。
超人工智能（Superintelligent AI）：在几乎所有领域都超越人类智力水平的人工智能系统，是人工智能发展的远期目标，目前还停留在理论探讨阶段。

（二）第三次崛起的三大基石

数据：大数据时代的到来为人工智能提供了海量的训练数据，数据的多样性和实时性为模型训练提供了丰富素材。
算法：深度学习算法的不断创新和完善（如卷积神经网络、循环神经网络、Transformer 架构等）为人工智能模型提供了强大的学习能力。
计算能力：GPU/FPGA 等硬件技术的发展以及云计算平台的广泛应用，显著提升了计算效率，使得模型训练和推理能够在更短时间内完成。

（三）六大关键技术

计算机视觉：涵盖图像识别、目标检测、语义分割、三维重建等任务，广泛应用于安防、医疗、自动驾驶等领域。
自然语言处理：包括机器翻译、情感分析、文本生成、问答系统等，是实现人机交互的关键技术。
机器学习：作为人工智能的基础，涵盖监督学习、无监督学习、强化学习等多种方法，为人工智能模型提供了学习和优化能力。
机器人技术：融合计算机视觉、自然语言处理、运动控制等技术，实现机器人的自主感知、决策和行动。
语音识别与合成：将语音信号转换为文字信息（语音识别），以及将文字信息转换为自然语音（语音合成），在智能语音助手、会议转录等领域有广泛应用。
知识图谱：构建和利用知识图谱进行知识表示、推理和问答，在搜索引擎、智能推荐等领域发挥重要作用。

五、技术应用领域详解

（一）自然语言处理

应用实例：智能问答系统（如客服机器人、知识问答平台）通过深度学习技术理解用户问题并提供准确答案；机器翻译（如 Google 翻译、百度翻译）实现不同语言之间的自动翻译；文本生成（如新闻报道生成、文案创作）通过预训练语言模型生成自然流畅的文本内容。
关键技术：基于深度学习的词嵌入技术（如 Word2Vec、GloVe）将词汇映射到低维向量空间，捕捉词汇语义信息；循环神经网络（RNN）及其变体（如 LSTM、GRU）用于处理序列文本数据；Transformer 架构通过自注意力机制实现并行计算，显著提升模型性能，在 BERT、GPT 等预训练语言模型中得到广泛应用。
工具与框架：NLTK、spaCy 等自然语言处理库提供文本预处理、分词、词性标注等功能；PyTorch、TensorFlow 等深度学习框架支持构建和训练自然语言处理模型。

（二）计算机视觉

应用实例：图像识别与分类（如图像搜索引擎、内容推荐系统）通过深度学习模型对图像内容进行自动识别和分类；目标检测与跟踪（如安防监控、自动驾驶）实时定位和跟踪图像中的特定目标；语义分割（如医学影像分析、遥感图像处理）对图像中的每个像素进行分类，实现对复杂场景的精细理解。
关键技术：卷积神经网络（CNN）通过卷积层、池化层等结构提取图像的局部特征和层次化表示，是计算机视觉领域的核心算法；区域卷积神经网络（R-CNN）及其改进版本（如 Fast R-CNN、Faster R-CNN）实现目标检测的高精度和实时性；全卷积网络（FCN）、U-Net 等模型用于语义分割任务，通过编码器 - 解码器结构实现像素级分类。
工具与框架：OpenCV 提供丰富的图像处理和计算机视觉算法，支持图像预处理、特征提取、图像变换等操作；TensorFlow、PyTorch 等深度学习框架支持构建和训练卷积神经网络等模型，广泛应用于计算机视觉研究和开发。

（三）综合应用

百度文心大模型：构建了涵盖基础大模型、任务大模型、行业大模型的三级体系，提供丰富的工具与平台（如大模型套件、数据标注与处理工具），在自然语言处理、计算机视觉、跨模态任务等领域有广泛应用，推动了人工智能技术在各行业的落地。
具身智能：融合自然语言处理（实现人机交互）、计算机视觉（环境感知）、深度强化学习（运动控制）等技术，使机器人能够通过与环境的交互学习，实现自主决策和行动，是人工智能与机器人技术结合的重要发展方向。

六、线性回归

（一）定义与基本要素

定义：利用回归分析确定变量间的定量关系，通过拟合曲线预测新输入对应的输出值。最简单的曲线是直线，对应线性回归。
基本要素：
- 训练集：输入数据，记为 x。
- 输出数据：待预测的值，记为 y。
- 拟合函数：假设函数 h(x)，若为直线，则表示为 y = kx + b。一般形式为 y = hθ(x) = θ^T x，其中 θ 是参数向量，x 是特征向量。

（二）学习过程

输入数据通过机器学习方法，学习得到估计函数 h，进而对新数据进行估计。

（三）扩展问题

当房价与多个因素（如面积、年限）有关时，可构造多维线性函数。对于 n 个特征，有 y = θ^T x，其中 θ = [θ1, θ2, …, θn]^T，x = [x1, x2, …, xn]。

（四）代价函数与求解

代价函数：衡量预测值与真实值之间的误差，采用二次型形式，即 J(θ) = (1/m) Σ (y(i) - hθ(x(i)))^2，其中 m 为样本数量。
目标：找到使 J(θ) 最小的参数 θ。
求解方法：解析解，即 θ = (X^T X)^(-1) X^T y，其中 X 为样本矩阵，y 为输出向量。

七、线性二分类问题

（一）定义与思路

定义：通过特征的线性组合进行分类决策，样本通过直线（或超平面）可分。
思路：构造分界直线（或超平面），将不同类别分开。一边为负值，一边为正值，值的大小表示属于某类的程度。

（二）与线性回归的差别

输出意义：分类问题输出属于某类的概率（0-1 之间），而回归问题输出具体值。
参数意义：分类问题的最佳分类直线与回归问题的最佳拟合直线不同。
维度：分类问题和回归问题的维度可能不同。

（三）Sigmoid 函数

为将输出限制在 0-1 之间，引入 Sigmoid 函数：S(z) = 1 / (1 + e^(-z))，其中 z = θ^T x。该函数将 z 映射到 (0,1) 区间，表示属于某一类的概率。

（四）代价函数与求解

代价函数：J(θ) = - (1/m) Σ [y(i) log(hθ(x(i))) + (1 - y(i)) log(1 - hθ(x(i)))]，其中 hθ(x(i)) = S(θ^T x(i))。
目标：找到使 J(θ) 最小的参数 θ。
求解方法：采用梯度下降法等迭代方法。

八、对数回归与多分类回归

（一）对数回归

条件概率：从概率角度看待二分类问题，假设 P(y(i)=1|x(i)) = S(θ^T x(i))，P(y(i)=0|x(i)) = 1 - S(θ^T x(i))。
似然函数：假设样本相互独立，服从 Bernoulli 分布，则似然函数为 L(θ) = Π P(y(i)|x(i);θ)。取对数似然函数 l(θ) = Σ [y(i) log(S(θ^T x(i))) + (1 - y(i)) log(1 - S(θ^T x(i)))]。最大化 l(θ) 等价于最小化负对数似然函数。

（二）多分类回归

分类函数：对于 k 个类别的分类问题，需要多个分割超平面。分类函数表示为 P(y(i)=j|x(i);θ) = exp(θ_j^T x(i)) / Σ exp(θ_k^T x(i))，其中 j = 1,2,…,k。
代价函数：采用交叉熵损失函数，即 J(θ) = - (1/m) Σ Σ 1(y(i)=k) log(P(y(i)=k|x(i);θ))。
Softmax 函数：多分类中的 Sigmoid 函数，将多个线性函数的输出映射到 (0,1) 区间，且所有输出的和为 1，表示属于各个类别的概率。

九、神经元模型

（一）生物神经元

结构：由树突、细胞体、轴突等部分组成。树突接收输入信号，细胞体进行整合，轴突传递输出信号。
模型：包括 Spiking 模型、Integrate-and-fire 模型等，描述神经元的电生理特性。

（二）人工神经元模型（M-P 模型）

结构：由输入、加权求和、激活函数（作用函数）和输出组成。输入为特征向量 x，加权求和为 Σ wj xj + b，激活函数将加权求和后的值映射到特定区间，输出为最终结果。
激活函数：
- 非对称型 Sigmoid 函数（LogSigmoid）：f(x) = 1 / (1 + e^(-βx))，β > 0。
- 对称型 Sigmoid 函数（Tangent Sigmoid）：f(x) = (1 - e^(-βx)) / (1 + e^(-βx))，β > 0。
- 对称型阶跃函数：f(x) = +1（x ≥ 0），-1（x < 0）。

（三）Hebb 规则

连接权值的调整量与输入和输出的乘积成正比，即 Δw = α x y。当两个神经元同时兴奋时，它们之间的连接权重增强。

十、感知机模型

（一）感知机原理

定义：由 Rosenblatt 在 1957 年提出，是神经网络和支持向量机的基础，用于解决线性分类问题。
公式：直线方程为 ax + by + c = 0，高维情况下的分类面为超平面，距离公式为 d = |w^T x + b| / ||w||。

（二）感知机模型

模型：y = f(x) = sign(w^T x)，其中 sign 为符号函数，当 x ≥ 0 时输出 +1，否则输出 -1。
损失函数：L(w) = - Σ y(i) (w^T x(i))，用于衡量误分类点的总损失。
训练过程：
- 输入：训练数据集 {(x(i), y(i))}（监督学习）。
- 输出：权重向量 w。
- 步骤：
  1. 初始化 w0，设置数据序号 i = 1，迭代次数 k = 0。
  2. 选择数据点 (x(i), y(i))。
  3. 判断该数据点是否为误分类点，即 y(i) (w^T x(i)) ≤ 0。若是，则更新权值：w(k+1) = w(k) + α y(i) x(i)，其中 α 为学习率。
  4. 转到步骤 2，直到训练集中没有误分类点。