以下是视觉领域模型演进的结构化总结,结合技术、功能、性能及典型应用场景:
一、技术变化:从手工设计到多模态大模型
1.传统阶段(2010年前)
- 手工特征提取:依赖SIFT(尺度不变特征变换)、HOG(方向梯度直方图)等人工设计的特征描述子,结合SVM等浅层模型完成图像分类与检测,但难以处理复杂场景。
- 局限性:依赖人工经验,泛化能力差,错误率高达25%。
2.深度学习革命(2012-2020)
- CNN崛起:AlexNet(2012)通过卷积神经网络(CNN)在ImageNet竞赛中错误率降至16%,后续ResNet(残差结构)、Inception(多尺度卷积)等模型突破深度与效率瓶颈,错误率进一步降至5%。
- 局限性:局部感受野限制全局理解,需多模型并行处理不同任务(如YOLO检测、U-Net分割)。
3.Transformer与多模态融合(2020至今)
- 全局建模:ViT(2020)将图像划分为patches输入Transformer,实现跨模态建模;Swin Transformer(2021)通过窗口化机制平衡局部与全局。
- 跨模态交互:CLIP(2021)通过对比学习对齐图像-文本特征,支持“以文搜图”;SAM(2023)通过点/框提示实现通用分割。
- 生成式突破&