通用视觉框架OpenMMLab图像分类与基础视觉模型

最新推荐文章于 2025-05-27 17:05:29 发布

spring小郭

最新推荐文章于 2025-05-27 17:05:29 发布

阅读量180

点赞数

分类专栏：计算机视觉机器学习文章标签：分类计算机视觉深度学习

本文链接：https://blog.youkuaiyun.com/Ilovechase/article/details/128874729

版权

机器学习同时被 2 个专栏收录

4 篇文章

订阅专栏

计算机视觉

2 篇文章

订阅专栏

本文介绍了图像分类的基础知识，深度学习的发展历程，从AlexNet到VGG、GoogLeNet，再到残差网络ResNet的演变。同时探讨了Transformer在图像分类中的应用，以及轻量化模型如ConvNeXt如何通过优化参数量和计算量来提升效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像分类与基础视觉模型学习笔记
课程从什么是图像开始逐渐深入，讲解了图像分类与基础视觉模型的基础知识，以及卷积神经网络等。
一、发展
1.问题的数学表示
在这里插入图片描述

2.超越规则：让机器从数据中学习：收集数据-定义模型（含参变量的函数）-训练（寻找最佳参数 Θ ∗）-预测（对于新图像 𝑋，用训练好的模型预测其类别）
3.从特征工程到特征学习
（1）传统方法：设计图像特征 (1990s~2000s)
在这里插入图片描述

（2）从特征工程到特征学习
方向梯度直方图（Histogram of Oriented Gradients）在局部区域统计像素梯度的方向的分布，将图像映射成一个相对低维的特征向量，同时保留足够识别物体的信息
在这里插入图片描述

随着卷积神经网络和Transformer的出现，进一步发展为层次化的特征实现，提高了运行的效率：
在这里插入图片描述

二、深度学习
1.发展过程
AlexNet（2012）→Going Deeper (2012~2014) →VGG (2014)→GoogLeNet (Inception v1, 2014) →残差网络 ResNet (2015)
2.介绍
（1）AlexNet
5 个卷积层，3 个全连接层，共有 60M 个可学习参数，使用 ReLU 激活函数，大幅提高收敛速度。
在这里插入图片描述