计算机视觉中的机器学习:从理论到实践
1. 深度学习基础概念
1.1 正则化(Regularization)
ReLU激活函数在2012年前未被广泛使用,原因在于其不饱和特性会导致神经网络的权重在数值上不稳定。AlexNet的作者采用了正则化技术来防止权重过大。正则化有助于控制模型的复杂度,避免过拟合问题,使模型在训练数据和未知数据上都能有较好的表现。
1.2 深度(Depth)
随着训练速度的提升,能够训练具有更多神经网络层的更复杂模型。具有更多层的模型被称为深度模型。深度是神经网络重新受到关注的关键因素,整个领域也因此被称为深度学习。例如AlexNet的卓越性能,正是得益于将多种技术结合以训练出比以往更深的卷积神经网络。
1.3 深度学习的应用场景
深度学习是机器学习的一个分支,使用具有多层的神经网络。它在计算机视觉领域超越了以往的方法,并且已成功应用于多种非结构化数据,如视频、音频、自然语言文本等。以下是一些具体的应用场景:
- 光学字符识别(OCR) :传统的OCR方法通过教计算机对单个字母进行模式匹配来提取文本,但由于字体多样、字母大小不同、扫描图像可能存在扭曲等问题,这种方法具有挑战性。而深度学习可以将OCR轻松构建为图像分类系统,利用已数字化的书籍进行模型训练。
- 医疗诊断 :利用X射线、MRI等图像进行疾病诊断。
- 零售运营自动化 :如读取二维码、识别空货架、检查蔬菜质量等。
- 监控领域 :通过卫星
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



