视觉信息处理与检索——入门

本文概述了图像识别的基本框架,从全局特征提取到局部特征的使用,包括词袋模型在图像检索中的应用。传统方法依赖人工设计特征,而深度学习则通过多层神经网络自动学习特征,克服了语义鸿沟问题。深度学习在图像识别领域的应用广泛,如图片检索、异常检测等,其优势在于避免了人工特征提取的复杂性和局限性,更贴近人脑的视觉处理机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

图像识别目标

让计算机将语义概念相似的图像划分为同一个类别

图像识别面临挑战

语义鸿沟现象

  • 图像底层视觉特征和高级语义概念之间的鸿沟

    • 不相似的视觉特征,相同的于一概念(不同视角、不同光照、不同大小)
    • 相似的视觉特性,不同的语义概念
  • 在深度学习之前,总是想认为设置不同的特征、尺度来更全面地表达图像。

  • 深度学习回避了这个问题,很多层的神经网络,可以表示不同层的信息,完成特征的表达,比人为的设置特征更强,更精确。

图像识别基本框架

测量空间 -> 特征空间 -> 类别空间

传统方法与深度学习方法的区别

  • 传统方法:设计特征

  • 深度学习:学习特征

传统图像识别技术

早期图像识别技术(1990-2003)

流程:特征提取(颜色、边缘) → 索引技术 → 相关反馈 → 重排序

注: 但早期做的还是比较少,因为计算机存储、算力都达不到。

全局特征提取

图片被表示成向量。

用全局的视觉底层特性统计量表示图像。

  • 颜色
  • 形状
  • 纹理
流程

原图片 → 向量空间映射 → 向量表示(相似度高的图片在空间中所标识的点更为接近)

特征变换

提高特征的表示性能

  • 空间变换

    • 相以的物体 → 距离近
    • 不相似的物体 → 距离远
  • manifold learning / embedding

    • 映射为低维空间下的向量表示,常用方法如 PCA、MDS、ISOMAP、LLE、Laplacian Eigenmap
  • 简单特征变换

    • 中心化
    • 归一化

索引技术

  • 穷举搜索
    • 效率太低,时间复杂度太高
  • 改进方式
    • 牺牲精度&#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Uncle Tan_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值