36、基于内容的图像搜索技术解析

基于内容的图像搜索技术解析

在图像搜索领域,基于内容的搜索是一项关键技术,它能够帮助我们根据图像的特征来查找相似的图像。下面将详细介绍相关的搜索方法和技术。

颜色特征相关方法
累积直方图比较

传统直方图比较方法存在一定局限性,相邻区间代表相似数据,但在常规向量中相邻“区间”是正交且无关的。更好的直方图比较方法是考虑相邻区间的相似性,同时惩罚差异。累积直方图就是这样一种方法,它的区间值是常规直方图到该点的区间值之和。
若 H 是一个直方图,累积直方图 C 的计算方式如下:

C[0] = H[0];
for (i=1; i<N; i++) C[i] = C[i-1] + H[i];

在归一化直方图中,所有区间的总和为 1。在累积直方图中,随着区间顺序递增,区间值趋近于 1。早期两个直方图的差异会在后续区间重复累加直至平衡,这意味着远距离区间的差异比相邻区间的差异影响更大。
通过实验比较简单直方图(hue)和累积直方图(hueC)的欧氏距离在图像搜索中的成功率,结果如下:
- 简单直方图:65.9% 成功率
- 累积直方图:69.1% 成功率

重新量化

所有彩色图像由红、绿、蓝像素组成,但图像包含的颜色远不止这三种。牛顿定义的基本颜色有红、橙、黄、绿、蓝、靛、紫,再加上白色和黑色,共九种原型颜色可用于匹配过程。不过牛顿的颜色包含过多蓝色,且未考虑颜色间的距离。这里使用的原型颜色如下:
| 颜色 | RGB 值 |
| ---- | ---- |
| 红色 | (170, 0, 0) |
| 橙色 | (170, 85, 0) |
| 黄色 | (170, 170, 0) |
| 绿色 | (0, 170, 0) |
| 蓝色 | (0, 0, 170) |
| 紫色 | (85, 0, 170) |
| 豌豆绿 | (85, 170, 0) |
| 黑色 | (25, 25, 25) |
| 白色 | (240, 240, 240) |
| 灰色 | (128, 128, 128) |

使用这些原型时,图像中的颜色会被替换,并构建和归一化这十种颜色的直方图,与数据集中的其他此类直方图进行比较,欧氏距离最近的即为最佳匹配,这被称为原型特征。

简单颜色特征搜索结果

对整个 ALOI 数据集计算并存储所有颜色特征到一个大文本文件 master3.txt 中。随机选择目标图像进行查询,判断数据集中哪些图像与目标最匹配。重要的是统计同一类图像匹配的频率,同一对象的所有图像位于同一目录,同一目录的图像视为匹配。
搜索实验使用颜色特征的结果如下表所示:
| 特征 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 总次数 | 成功率 % |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| 均值 | 0 | 168 | 156 | 197 | 130 | 145 | 127 | 151 | 122 | 163 | 442 | 1005 | 55.8 |
| 二次方 | 0 | 42 | 40 | 144 | 97 | 141 | 124 | 140 | 146 | 143 | 784 | 1337 | 74.2 |
| 六次方 | 0 | 5 | 3 | 48 | 42 | 96 | 88 | 84 | 126 | 102 | 1207 | 1607 | 89.2 |
| 原型 | 5 | 592 | 203 | 178 | 174 | 145 | 144 | 123 | 108 | 129 | 373 | 877 | 48.7 |
| 色调 | 0 | 95 | 124 | 129 | 141 | 126 | 114 | 130 | 129 | 173 | 640 | 1186 | 65.9 |
| 色调累积 | 0 | 78 | 106 | 119 | 123 | 134 | 115 | 132 | 135 | 176 | 686 | 1244 | 81.0 |

对前五种方法进行投票,多数投票需 3/5 获胜。结果显示,在所有图像的五种方法中,总正确次数为 1459(81.0%)。
在信息检索中,成功率常被称为精度,即搜索检索到的相关文档数除以检索到的文档总数。另一个指标是召回率,即成功检索数除以应检索的相关文档总数,但本次试验仅进行十次检索,无法测量召回率。F - 分数是结合召回率和精度的单一指标,定义为:
[F = 2.0 (recall precision)/(recall + precision)]

还有一种搜索引擎评估方案,即典型查询第一页相关响应的百分比。一般人认为文本查询中 30% 的成功率是典型的。

每个数据集在测试检索方法时都有局限性。例如风景和肖像照片中,背景是搜索的一部分,有时匹配的是背景而非主体。理解这些局限性并根据结果调整代码和参数,才能提高搜索的准确性。

其他基于颜色的方法

文献中提到的一种创建颜色直方图的技术,可忽略常被视为噪声的无色信息。通过计算彩色像素红、绿、蓝分量的标准差并归一化到 [0,1] 范围实现。标准差公式为:
[
\sigma = \sqrt{\frac{\sum_{i = 1}^{n}(x - \bar{x})^2}{n}}
]
像素的色度通过分段线性函数计算:
[
\mu(\sigma) =
\begin{cases}
0 & \text{if } 0 \leq \sigma < a \
2(\frac{\sigma - a}{b - a})^2 & \text{if } a \leq \sigma < \frac{a + b}{2} \
1 - (\frac{\sigma - b}{b - a})^2 & \text{if } \frac{a + b}{2} \leq \sigma < b \
1 & \text{if } b \leq \sigma < 1
\end{cases}
]
其中 a 和 b 是 0 到 1 之间的常数,且 a < b。过往实验确定有效值为 a = 0.05,b = 0.8。计算区域内每个像素的色度值,构建 16 区间的颜色直方图。
使用平均颜色值的效果比预期好(55%),矩的概念也可用于图像搜索。一阶矩公式为:
[
\sum_{i = 1}^{n}(x - \bar{x})^1
]
二阶矩是方差公式的分子:
[
\sum_{i = 1}^{n}(x - \bar{x})^2
]
可以使用图像颜色分量的均值、标准差和偏度值作为九分量特征向量。通过简单实验(searchCM),在 654 次随机搜索中,成功检索 586 次(89.6%),优于基于直方图的方法。

灰度图像特征

灰度图像搜索虽从系统功能角度不太重要,但在搜索时仅靠颜色信息是不够的。灰度图像的搜索方法也可推广到彩色图像,彩色图像的 RGB 分量求平均可得灰度值。网站提供了一个目录 c:\aipcv\grey 用于存放灰度图像进行搜索,ALOI 集合中有可用于测试的灰度图像。

灰度直方图

灰度直方图是彩色直方图的简单修改,彩色直方图的比较和使用方法同样适用于此。但灰度只有单一度量,可能区分度不如彩色。图像灰度的轻微变化(如亮度或线性对比度调整)虽不改变图像内容,但会显著影响平均水平和直方图。
整个图像的基本灰度直方图有 256 个区间,减少区间数可能对结果影响不大。可以使用四叉树构建分层子图像的灰度级别,结果如下:
- 一级四叉树:292/654 = 44.6% 成功率
- 二级四叉树:564/654 = 86.2% 成功率
- 基本灰度直方图:586/654 = 89.6% 成功率
- 累积灰度直方图:586/654 = 89.6% 成功率

灰度 Sigma - 矩

Sigma(σ)即标准差,可作为简单的纹理度量,实际上是像素值亮度变化的度量。区域内的强度变化通过计算所有像素强度值的标准差确定,这是二阶矩。可以构建包含三到四个矩的向量特征来衡量图像相似度。
一个使用均值、标准差和偏度计算加权欧氏距离确定相似度的基本系统,正确分类图像的次数为 113/654 次,即 17.3%。与 ALOI 数据集的随机成功率 0.1% 相比,这个结果还算不错。

边缘密度 - 对象边界

边缘密度是基于图像区域或整个图像边缘强度的简单几何度量。首先使用标准边缘检测器(如 Sobel)增强属于边缘和边界的像素,结果是一组像素,其值代表该点的边缘强度。边缘密度通过边缘增强图像的平均像素值计算。
边缘代表对象与背景或对象之间的边界,与图像内容相关,该特征可衡量图像的“繁忙”程度。

边缘方向

许多边缘检测器(如 Sobel 边缘检测器)可通过小图像掩码(如 3x3)的卷积实现,且通常有多个具有方向偏向的掩码,可粗略估计边缘方向。对于典型的 3x3 图像区域,两个 Sobel 掩码如下:
[
s_x =
\begin{bmatrix}
-1 & 0 & 1 \
-2 & 0 & 2 \
-1 & 0 & 1
\end{bmatrix}
]
[
s_y =
\begin{bmatrix}
-1 & -2 & -1 \
0 & 0 & 0 \
1 & 2 & 1
\end{bmatrix}
]
根据每个掩码的响应代表 X 或 Y 方向的向量,使用简单三角函数确定区域内像素的边缘方向:
[
\theta = \arctan(S_y/S_x)
]
通过计算区域内所有像素的合成向量,得到区域边缘方向的总体估计。计算图像相似度时,使用基于区域的合成向量差异。

布尔边缘密度

布尔边缘密度与边缘密度方法类似,应用边缘检测器后对图像进行阈值处理,使“边缘像素”为白色(1),非边缘像素为黑色。该方法返回区域内白色(边缘)像素的比例。在有噪声的图像中,布尔边缘密度可减少噪声影响,因为噪声和边缘都是高频信息,阈值处理可降低噪声效果。但在应用于整个图像时,它是目前成功率最低的特征,仅 3/654 次将图像分类到正确组。不过,当在图像的 25 个等大小子区域测量布尔边缘密度时,它可作为后续方法的有用过渡。

综上所述,在图像搜索中,不同的特征和方法各有优缺点。颜色特征在很多情况下能提供有效的搜索结果,但也受到数据集特点的影响。灰度图像特征可以作为补充,与颜色特征结合使用,构建更强大的基于内容的图像搜索方案。理解各种方法的原理和局限性,并根据具体需求选择合适的方法,才能提高图像搜索的准确性和效率。

基于内容的图像搜索技术解析(续)

不同特征和方法的综合分析

为了更清晰地对比各种图像搜索特征和方法的性能,我们可以将前面提到的结果进行进一步的整理和分析。以下是一个汇总表格,展示了不同特征和方法在图像搜索中的成功率:
| 特征和方法 | 成功率 |
| ---- | ---- |
| 简单颜色直方图(hue) | 65.9% |
| 累积颜色直方图(hueC) | 69.1% |
| 均值颜色特征 | 55.8% |
| 二次方颜色特征 | 74.2% |
| 六次方颜色特征 | 89.2% |
| 原型颜色特征 | 48.7% |
| 基于均值、标准差和偏度的九分量特征向量 | 89.6% |
| 一级四叉树灰度直方图 | 44.6% |
| 二级四叉树灰度直方图 | 86.2% |
| 基本灰度直方图 | 89.6% |
| 累积灰度直方图 | 89.6% |
| 基于均值、标准差和偏度的灰度特征 | 17.3% |
| 边缘密度 | - |
| 边缘方向 | - |
| 布尔边缘密度(全图像) | 0.46% |

从这个表格中我们可以看出,不同的特征和方法在图像搜索中的表现差异较大。例如,二次方、六次方颜色特征以及基于均值、标准差和偏度的九分量特征向量、基本灰度直方图和累积灰度直方图都取得了较高的成功率,而原型颜色特征和布尔边缘密度(全图像)的成功率相对较低。

下面是一个 mermaid 流程图,展示了一个基于内容的图像搜索的基本流程:

graph LR
    A[选择目标图像] --> B[提取图像特征]
    B --> C{特征类型}
    C -->|颜色特征| D[颜色直方图处理]
    C -->|灰度特征| E[灰度直方图处理]
    C -->|边缘特征| F[边缘检测与处理]
    D --> G[与数据库中特征比较]
    E --> G
    F --> G
    G --> H[找出最匹配图像]
    H --> I[输出搜索结果]
实际应用中的考虑因素

在实际应用基于内容的图像搜索技术时,需要考虑多个方面的因素。

首先是数据集的选择。不同的数据集具有不同的特点,例如前面提到的 ALOI 数据集,其图像背景为黑色,这既带来了背景恒定的优势,也可能导致因黑色像素数量影响搜索结果。在选择数据集时,要根据搜索的目标和需求,选择具有代表性和多样性的数据集。

其次是特征的组合使用。单一的特征可能无法满足复杂的搜索需求,将不同的特征进行组合可以提高搜索的准确性。例如,可以将颜色特征和灰度特征结合起来,或者将边缘特征与颜色特征相结合。以下是一个简单的组合特征搜索的步骤:
1. 提取目标图像的颜色特征(如颜色直方图)和灰度特征(如灰度直方图)。
2. 分别计算目标图像的颜色特征和灰度特征与数据库中图像的对应特征的相似度。
3. 为颜色特征和灰度特征分配不同的权重,例如颜色特征权重为 0.6,灰度特征权重为 0.4。
4. 根据加权后的相似度结果,找出最匹配的图像。

另外,还需要考虑计算资源和时间成本。一些复杂的特征提取和比较方法可能需要大量的计算资源和时间,在实际应用中需要权衡准确性和效率。例如,使用高阶矩特征或复杂的边缘检测算法可能会提高搜索的准确性,但同时也会增加计算时间。

未来发展趋势

随着技术的不断发展,基于内容的图像搜索技术也在不断演进。未来可能会出现以下几个发展趋势:

一是深度学习的应用。深度学习在图像识别和分类领域已经取得了巨大的成功,将深度学习模型应用于图像搜索中,可以自动学习图像的复杂特征,提高搜索的准确性和效率。例如,使用卷积神经网络(CNN)提取图像的特征,然后进行相似度比较。

二是多模态搜索的发展。除了图像特征,还可以结合文本、音频等其他模态的信息进行搜索。例如,用户可以通过输入文本描述和上传图像相结合的方式进行搜索,系统可以综合分析多种模态的信息,给出更准确的搜索结果。

三是实时搜索的需求增加。在一些应用场景中,如视频监控、实时图像分析等,需要能够实时进行图像搜索。未来的技术需要能够满足这种实时性的要求,提高搜索的速度和响应能力。

总之,基于内容的图像搜索技术是一个充满挑战和机遇的领域。通过不断地研究和创新,结合新的技术和方法,我们可以提高图像搜索的准确性和效率,满足不同领域的需求。在实际应用中,要充分考虑数据集特点、特征组合、计算资源等因素,选择合适的方法和策略。同时,关注未来的发展趋势,积极探索新的技术和应用场景,推动图像搜索技术的不断发展。

【四旋翼无人机】具备螺旋桨倾斜机构的全驱动四旋翼无人机:建模与控制研究(Matlab代码、Simulink仿真实现)内容概要:本文围绕具备螺旋桨倾斜机构的全驱动四旋翼无人机展开研究,重点探讨其系统建模与控制策略,结合Matlab代码与Simulink仿真实现。文章详细分析了无人机的动力学模型,特别是引入螺旋桨倾斜机构后带来的全驱动特性,使其在姿态与位置控制上具备更强的机动性与自由度。研究涵盖了非线性系统建模、控制器设计(如PID、MPC、非线性控制等)、仿真验证及动态响应分析,旨在提升无人机在复杂环境下的稳定性和控制精度。同时,文中提供的Matlab/Simulink资源便于读者复现实验并进一步优化控制算法。; 适合人群:具备一定控制理论基础和Matlab/Simulink仿真经验的研究生、科研人员及无人机控制系统开发工程师,尤其适合从事飞行器建模与先进控制算法研究的专业人员。; 使用场景及目标:①用于全驱动四旋翼无人机的动力学建模与仿真平台搭建;②研究先进控制算法(如模型预测控制、非线性控制)在无人机系统中的应用;③支持科研论文复现、课程设计或毕业课题开发,推动无人机高机动控制技术的研究进展。; 阅读建议:建议读者结合文档提供的Matlab代码与Simulink模型,逐步实现建模与控制算法,重点关注坐标系定义、力矩分配逻辑及控制闭环的设计细节,同时可通过修改参数和添加扰动来验证系统的鲁棒性与适应性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值