神经网络与深度学习-学习笔记1

一、人工智能、机器学习与深度学习

(一)定义

  • 人工智能(Artificial Intelligence):通过机器实现需借助人类智慧完成的任务,涵盖模拟、延伸和扩展人类智能的理论、方法、技术及应用系统。
  • 机器学习:人工智能的关键分支,利用经验(即数据)提升计算机系统在特定任务上的性能,是实现智能化的核心途径。
  • 深度学习:机器学习的一个重要领域,模拟人脑的神经网络结构,通过多层非线性变换对数据进行特征提取和表示学习。

(二)方法论

  • 仿生角度:模仿生物(如人脑)的信息处理机制,构建人工神经网络模型,是深度学习的理论基础。
  • 符号学角度:借助统计概率、数理逻辑、博弈搜索等技术实现智能行为,与机器学习的早期方法密切相关。
  • 行为学角度:基于控制论,让机器通过与环境交互进行自我进化,强化学习是其典型代表。
  • 交叉角度:融合以上多种方法论,形成更强大的人工智能系统。

二、机器学习与深度学习的应用场景与挑战

(一)应用领域

  • 图像与视频处理:如目标检测、图像分割、视频分析等,广泛应用于安防、医疗影像诊断、自动驾驶等领域。
  • 文本与语言处理:包括机器翻译、情感分析、文本生成等,是自然语言处理(NLP)的核心任务。
  • 语音与音频处理:语音识别、语音合成、音频分类等,在智能语音助手、会议转录等场景中发挥重要作用。
  • 生物信息学:分析基因表达数据、蛋白质结构预测等,助力生物医学研究。
  • 推荐系统:基于用户行为数据进行个性化推荐,如电商产品推荐、视频推荐等。
  • 地质与环境科学:如气候变化建模、地质灾害预测等。

(二)大数据的机遇与挑战

  • 数据量爆发式增长:随着互联网、物联网的发展,非结构化数据(如图像、文本、语音等)呈爆炸式增长,为机器学习和深度学习提供了丰富的训练素材。
  • 传统方法的局限性:面对海量、高维、复杂的非结构化数据,传统的机器学习方法(如决策树、支持向量机等)在特征提取、模型拟合等方面表现乏力,难以取得理想效果。
  • 特征工程瓶颈:在传统机器学习流程中,特征工程是关键步骤,但手动设计特征费时费力,且难以挖掘数据中的深层语义信息。深度学习通过自动特征学习,有效解决了这一问题。

(三)人类信息分级处理的启示

  • 视觉信息处理的分级结构:人类视觉系统从输入层的像素信息,经多层处理(如边缘检测、特征组合等),逐步形成对物体的抽象语义表示。这一分级处理机制为深度学习模型的设计提供了生物学依据。
  • 深度学习模型的层次化特征表示:深度学习模型(如卷积神经网络)通过多层神经网络结构,自动学习数据的层次化特征表示,底层网络提取简单特征(如边缘、纹理),高层网络组合低层特征形成复杂语义表示,从而实现对图像、文本等复杂数据的高效处理。

三、神经网络与深度学习的发展历程

(一)发展历程概览

  • 推理期(1943-1956):1943 年,McCulloch 和 Pitts 提出神经元的数学模型,为神经网络的发展奠定了理论基础。1956 年,达特茅斯会议标志着人工智能学科的诞生。
  • 知识期(1957-1974):1957 年,Rosenblatt 提出感知机模型,推动了神经网络的研究。1969 年,Minsky 和 Papert 在《感知机》一书中指出感知机的局限性(如无法解决 XOR 问题),导致神经网络研究进入低谷。
  • 学习期(1975-2005):1986 年,Rumelhart 和 McClelland 等人提出反向传播(BP)算法,为多层神经网络的训练提供了有效方法,神经网络研究迎来复兴。1995 年,SVM 算法等传统机器学习方法得到发展。
  • 爆发期(2006-2020):2006 年,Hinton 等人提出深度学习方法,通过构建深层神经网络模型,在图像识别、语音识别等领域取得突破性进展。此后,深度学习技术在各领域广泛应用,推动了人工智能的快速发展。
  • 通用人工智能与大模型时代(2021 至今):以 Transformer 架构为代表的预训练大模型(如 GPT 系列)在自然语言处理、多模态任务等领域取得了卓越成果,推动人工智能向更通用、更强大的方向发展。

(二)关键技术节点

  • 1943 年:McCulloch 和 Pitts 提出神经元的数学模型,开启了神经网络的理论研究。
  • 1957 年:Rosenblatt 提出感知机模型,是神经网络发展的重要里程碑。
  • 1969 年:Minsky 和 Papert 的《感知机》一书指出感知机的局限性,导致神经网络研究陷入低谷。
  • 1982 年:Hopfield 提出 Hopfield 网络,用于解决组合优化问题(如旅行商问题)。
  • 1986 年:Rumelhart 和 McClelland 提出反向传播算法,为多层神经网络的训练提供了有效方法。
  • 1995 年:SVM 算法等传统机器学习方法得到发展,为解决分类问题提供了新工具。
  • 2006 年:Hinton 等人提出深度学习方法,开启深度学习的爆发式发展。
  • 2011 年:微软在语音识别领域应用深度学习技术,显著提升语音识别准确率。
  • 2012 年:Hinton 的学生 Alex Krizhevsky 提出 AlexNet 模型,在 ImageNet 大规模视觉识别挑战赛中取得冠军,推动深度学习在计算机视觉领域的广泛应用。
  • 2016 年:AlphaGo 击败世界围棋冠军李世石,引发全球对人工智能的关注。
  • 2021 年:以 Transformer 架构为基础的预训练大模型(如 GPT-3.5)在自然语言处理领域取得突破性进展,推动通用人工智能的发展。

四、神经网络与深度学习的应用趋势

(一)人工智能发展的三个级别

  • 弱人工智能(Narrow AI):专注于特定任务的人工智能系统,在图像识别、语音识别、推荐系统等单个领域表现出色,但缺乏通用智能。
  • 强人工智能(General AI):具备与人类相当的智能水平,能够在多种任务上表现出与人类相似的能力,目前仍处于研究阶段。
  • 超人工智能(Superintelligent AI):在几乎所有领域都超越人类智力水平的人工智能系统,是人工智能发展的远期目标,目前还停留在理论探讨阶段。

(二)第三次崛起的三大基石

  • 数据:大数据时代的到来为人工智能提供了海量的训练数据,数据的多样性和实时性为模型训练提供了丰富素材。
  • 算法:深度学习算法的不断创新和完善(如卷积神经网络、循环神经网络、Transformer 架构等)为人工智能模型提供了强大的学习能力。
  • 计算能力:GPU/FPGA 等硬件技术的发展以及云计算平台的广泛应用,显著提升了计算效率,使得模型训练和推理能够在更短时间内完成。

(三)六大关键技术

  • 计算机视觉:涵盖图像识别、目标检测、语义分割、三维重建等任务,广泛应用于安防、医疗、自动驾驶等领域。
  • 自然语言处理:包括机器翻译、情感分析、文本生成、问答系统等,是实现人机交互的关键技术。
  • 机器学习:作为人工智能的基础,涵盖监督学习、无监督学习、强化学习等多种方法,为人工智能模型提供了学习和优化能力。
  • 机器人技术:融合计算机视觉、自然语言处理、运动控制等技术,实现机器人的自主感知、决策和行动。
  • 语音识别与合成:将语音信号转换为文字信息(语音识别),以及将文字信息转换为自然语音(语音合成),在智能语音助手、会议转录等领域有广泛应用。
  • 知识图谱:构建和利用知识图谱进行知识表示、推理和问答,在搜索引擎、智能推荐等领域发挥重要作用。

五、技术应用领域详解

(一)自然语言处理

  • 应用实例:智能问答系统(如客服机器人、知识问答平台)通过深度学习技术理解用户问题并提供准确答案;机器翻译(如 Google 翻译、百度翻译)实现不同语言之间的自动翻译;文本生成(如新闻报道生成、文案创作)通过预训练语言模型生成自然流畅的文本内容。
  • 关键技术:基于深度学习的词嵌入技术(如 Word2Vec、GloVe)将词汇映射到低维向量空间,捕捉词汇语义信息;循环神经网络(RNN)及其变体(如 LSTM、GRU)用于处理序列文本数据;Transformer 架构通过自注意力机制实现并行计算,显著提升模型性能,在 BERT、GPT 等预训练语言模型中得到广泛应用。
  • 工具与框架:NLTK、spaCy 等自然语言处理库提供文本预处理、分词、词性标注等功能;PyTorch、TensorFlow 等深度学习框架支持构建和训练自然语言处理模型。

(二)计算机视觉

  • 应用实例:图像识别与分类(如图像搜索引擎、内容推荐系统)通过深度学习模型对图像内容进行自动识别和分类;目标检测与跟踪(如安防监控、自动驾驶)实时定位和跟踪图像中的特定目标;语义分割(如医学影像分析、遥感图像处理)对图像中的每个像素进行分类,实现对复杂场景的精细理解。
  • 关键技术:卷积神经网络(CNN)通过卷积层、池化层等结构提取图像的局部特征和层次化表示,是计算机视觉领域的核心算法;区域卷积神经网络(R-CNN)及其改进版本(如 Fast R-CNN、Faster R-CNN)实现目标检测的高精度和实时性;全卷积网络(FCN)、U-Net 等模型用于语义分割任务,通过编码器 - 解码器结构实现像素级分类。
  • 工具与框架:OpenCV 提供丰富的图像处理和计算机视觉算法,支持图像预处理、特征提取、图像变换等操作;TensorFlow、PyTorch 等深度学习框架支持构建和训练卷积神经网络等模型,广泛应用于计算机视觉研究和开发。

(三)综合应用

  • 百度文心大模型:构建了涵盖基础大模型、任务大模型、行业大模型的三级体系,提供丰富的工具与平台(如大模型套件、数据标注与处理工具),在自然语言处理、计算机视觉、跨模态任务等领域有广泛应用,推动了人工智能技术在各行业的落地。
  • 具身智能:融合自然语言处理(实现人机交互)、计算机视觉(环境感知)、深度强化学习(运动控制)等技术,使机器人能够通过与环境的交互学习,实现自主决策和行动,是人工智能与机器人技术结合的重要发展方向。

六、线性回归

(一)定义与基本要素

  • 定义:利用回归分析确定变量间的定量关系,通过拟合曲线预测新输入对应的输出值。最简单的曲线是直线,对应线性回归。
  • 基本要素
    • 训练集:输入数据,记为 x。
    • 输出数据:待预测的值,记为 y。
    • 拟合函数:假设函数 h(x),若为直线,则表示为 y = kx + b。一般形式为 y = hθ(x) = θ^T x,其中 θ 是参数向量,x 是特征向量。

(二)学习过程

输入数据通过机器学习方法,学习得到估计函数 h,进而对新数据进行估计。

(三)扩展问题

当房价与多个因素(如面积、年限)有关时,可构造多维线性函数。对于 n 个特征,有 y = θ^T x,其中 θ = [θ1, θ2, …, θn]^T,x = [x1, x2, …, xn]。

(四)代价函数与求解

  • 代价函数:衡量预测值与真实值之间的误差,采用二次型形式,即 J(θ) = (1/m) Σ (y(i) - hθ(x(i)))^2,其中 m 为样本数量。
  • 目标:找到使 J(θ) 最小的参数 θ。
  • 求解方法:解析解,即 θ = (X^T X)^(-1) X^T y,其中 X 为样本矩阵,y 为输出向量。

七、线性二分类问题

(一)定义与思路

  • 定义:通过特征的线性组合进行分类决策,样本通过直线(或超平面)可分。
  • 思路:构造分界直线(或超平面),将不同类别分开。一边为负值,一边为正值,值的大小表示属于某类的程度。

(二)与线性回归的差别

  • 输出意义:分类问题输出属于某类的概率(0-1 之间),而回归问题输出具体值。
  • 参数意义:分类问题的最佳分类直线与回归问题的最佳拟合直线不同。
  • 维度:分类问题和回归问题的维度可能不同。

(三)Sigmoid 函数

为将输出限制在 0-1 之间,引入 Sigmoid 函数:S(z) = 1 / (1 + e^(-z)),其中 z = θ^T x。该函数将 z 映射到 (0,1) 区间,表示属于某一类的概率。

(四)代价函数与求解

  • 代价函数:J(θ) = - (1/m) Σ [y(i) log(hθ(x(i))) + (1 - y(i)) log(1 - hθ(x(i)))],其中 hθ(x(i)) = S(θ^T x(i))。
  • 目标:找到使 J(θ) 最小的参数 θ。
  • 求解方法:采用梯度下降法等迭代方法。

八、对数回归与多分类回归

(一)对数回归

  • 条件概率:从概率角度看待二分类问题,假设 P(y(i)=1|x(i)) = S(θ^T x(i)),P(y(i)=0|x(i)) = 1 - S(θ^T x(i))。
  • 似然函数:假设样本相互独立,服从 Bernoulli 分布,则似然函数为 L(θ) = Π P(y(i)|x(i);θ)。取对数似然函数 l(θ) = Σ [y(i) log(S(θ^T x(i))) + (1 - y(i)) log(1 - S(θ^T x(i)))]。最大化 l(θ) 等价于最小化负对数似然函数。

(二)多分类回归

  • 分类函数:对于 k 个类别的分类问题,需要多个分割超平面。分类函数表示为 P(y(i)=j|x(i);θ) = exp(θ_j^T x(i)) / Σ exp(θ_k^T x(i)),其中 j = 1,2,…,k。
  • 代价函数:采用交叉熵损失函数,即 J(θ) = - (1/m) Σ Σ 1(y(i)=k) log(P(y(i)=k|x(i);θ))。
  • Softmax 函数:多分类中的 Sigmoid 函数,将多个线性函数的输出映射到 (0,1) 区间,且所有输出的和为 1,表示属于各个类别的概率。

九、神经元模型

(一)生物神经元

  • 结构:由树突、细胞体、轴突等部分组成。树突接收输入信号,细胞体进行整合,轴突传递输出信号。
  • 模型:包括 Spiking 模型、Integrate-and-fire 模型等,描述神经元的电生理特性。

(二)人工神经元模型(M-P 模型)

  • 结构:由输入、加权求和、激活函数(作用函数)和输出组成。输入为特征向量 x,加权求和为 Σ wj xj + b,激活函数将加权求和后的值映射到特定区间,输出为最终结果。
  • 激活函数
    • 非对称型 Sigmoid 函数(LogSigmoid):f(x) = 1 / (1 + e^(-βx)),β > 0。
    • 对称型 Sigmoid 函数(Tangent Sigmoid):f(x) = (1 - e^(-βx)) / (1 + e^(-βx)),β > 0。
    • 对称型阶跃函数:f(x) = +1(x ≥ 0),-1(x < 0)。

(三)Hebb 规则

连接权值的调整量与输入和输出的乘积成正比,即 Δw = α x y。当两个神经元同时兴奋时,它们之间的连接权重增强。

十、感知机模型

(一)感知机原理

  • 定义:由 Rosenblatt 在 1957 年提出,是神经网络和支持向量机的基础,用于解决线性分类问题。
  • 公式:直线方程为 ax + by + c = 0,高维情况下的分类面为超平面,距离公式为 d = |w^T x + b| / ||w||。

(二)感知机模型

  • 模型:y = f(x) = sign(w^T x),其中 sign 为符号函数,当 x ≥ 0 时输出 +1,否则输出 -1。
  • 损失函数:L(w) = - Σ y(i) (w^T x(i)),用于衡量误分类点的总损失。
  • 训练过程
    • 输入:训练数据集 {(x(i), y(i))}(监督学习)。
    • 输出:权重向量 w。
    • 步骤:
      1. 初始化 w0,设置数据序号 i = 1,迭代次数 k = 0。
      2. 选择数据点 (x(i), y(i))。
      3. 判断该数据点是否为误分类点,即 y(i) (w^T x(i)) ≤ 0。若是,则更新权值:w(k+1) = w(k) + α y(i) x(i),其中 α 为学习率。
      4. 转到步骤 2,直到训练集中没有误分类点。

(三)感知机与神经元模型类比

感知机模型与神经元模型具有相同的形式,都包含输入、加权求和、激活函数和输出部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值