1 深度学习的引出
深度学习的引出源于多个学科和实际需求的交叉推动,其发展背景可概括为以下几方面:
一、神经科学与计算模型的启发
深度学习的核心思想受到生物神经系统的启发。例如,视觉皮层的层次化特征提取机制(Hubel & Wiesel的视觉研究)直接影响了卷积神经网络(CNN)的设计。早期的神经网络(如感知机)虽受神经科学启发,但受限于计算能力和数据规模,直到21世纪初才通过引入多层非线性变换(即“深度”结构)突破瓶颈。Yann LeCun提出的方法论——将参数化模块组合成动态图并用梯度优化,进一步明确了深度学习的技术框架。
二、传统机器学习方法的局限性
传统方法(如SVM、决策树)在以下场景中表现不足:
- 高维数据处理:例如图像分类任务中,传统特征工程(如SIFT、HOG)难以捕捉复杂视觉模式。
- 非线性关系建模:核方法虽能处理非线性问题,但计算复杂度随数据量增长急剧上升。
- 表征学习能力:浅层模型无法自动提取数据的层次化抽象特征,而深度学习通过多层非线性变换实现了端到端特征学习。
三、技术突破的三大支柱
- 算法创新:
- 反向传播算法的改进(如ReLU激活函数缓解梯度消失问题)
- 卷积神经网络(AlexNet在2012年ImageNet竞赛中的突破)
- 注意力机制(Transformer模型在自然语言处理中的应用)
- 计算能力提升:GPU并行计算使训练深层网络成为可能,分布式训练框架(如TensorFlow、PyTorch)加速了模型迭代。
- 大数据积累:ImageNet、Wikipedia等大规模标注数据集为模型训练提供了基础。
四、应用需求的推动
- 复杂任务需求:如医学图像分割(脊柱CT图像中椎骨与软组织的精细区分)、自然语言理解(ChatGPT的上下文推理能力)等任务,传统方法难以达到实用精度。
- 跨领域融合:深度学习与强化学习结合(AlphaGo)、与图模型结合(图神经网络)等扩展了其应用边界。
- 开源生态支持:GitHub上的开源项目(如Hugging Face模型库)降低了技术门槛,加速了社区协作创新。
五、教育与实践的普及
《动手学深度学习》等教材通过“理论+代码+交互式案例”的模式,降低了学习门槛。例如书中用动态图展示梯度下降过程,配合Jupyter Notebook代码实践,使抽象概念具象化。高校课程(如李沐的公开课)和工业界培训项目进一步推动了技术传播。
深度学习的发展并非线性演进,而是算法、硬件、数据、教育等多要素共同作用的结果。其核心价值在于通过数据驱动的方式,将复杂的现实问题转化为可优化的数学表示,这一范式已在计算机视觉、自然语言处理、生物信息学等领域展现出强大生命力。
2 什么是机器学习
机器学习是人工智能(AI)的核心分支,其核心思想是通过数据驱动的方式,让计算机系统自动从经验中学习规律和模式,并基于这些规律完成预测、分类或决策任务。以下是其核心要点与技术内涵:
定义与核心原理
-
数据驱动的学习过程
机器学习不依赖人工编写具体规则,而是通过大量数据训练模型,使系统自动发现数据中的内在关联。例如,训练图像识别模型时,输入成千上万张标注为“猫”和“狗”的图片,模型会逐步总结出耳朵形状、毛发纹理等区分特征。 -
核心组成要素
- 数据:训练集(经验)、验证集(调优)、测试集(评估)。
- 模型:数学函数或算法结构(如线性回归、神经网络),用于拟合输入与输出之间的关系。
- 优化算法:通过反向传播、梯度下降等方法调整模型参数,最小化预测误差。
-
与统计学的深层关联
机器学习本质上是统计学方法在计算能力提升后的扩展。例如,线性回归基于最小二乘法,而支持向量机(SVM)则结合了统计学习理论中的间隔最大化思想。马斯克曾直言“机器学习本质是统计”,强调了其数学根基。
分类与主要方法
-
监督学习(有老师指导)
- 任务类型:分类(预测离散标签,如垃圾邮件识别)、回归(预测连续值,如房价预测)。
- 典型算法:决策树、随机森林、支持向量机(SVM)、神经网络。
- 应用场景:医学影像诊断(如从CT图像中识别肿瘤)、金融风控(预测贷款违约概率)。
-
无监督学习(自学模式)
- 任务类型:聚类(如客户分群)、降维(如主成分分析PCA)、关联规则挖掘(如购物篮分析)。