基于文本的自动索引与检索概念框架
在当今信息爆炸的时代,高效地对视频等多媒体内容进行索引和检索变得至关重要。本文将介绍一种创新的视频检索框架,它整合了视觉和音频特征,旨在提高检索的准确性。
1. 视觉层概念框架
视觉层的概念框架是整个视频检索系统的基础,它主要由视觉语义面图、信号面等部分组成。
- 视觉语义面图 :其基本图为 [Vo]Æ(is_a)Æ [VSC] 。例如,对于示例图像,视觉语义面的表示为 [Vo1]Æ(is_a)Æ[Clinton] 和 [Vo2]Æ(is_a)Æ[flag] ,即第一个视觉对象(VO)代表克林顿,第二个 VO 代表旗帜。
- 信号面 :信号面的整合涉及将低级别信号特征映射到等效的符号表示。它包含颜色、纹理和空间三个子面。
- 颜色子面 :
- 首先,指定与低级别提取特征相对应的符号颜色,建立颜色名称与颜色刺激之间的对应关系。在本文范围内,使用 11 种颜色词(如红、白、蓝等),在 HVC 感知均匀空间中通过亮度、色调和饱和度区间的组合来描述。
- 每个 VO 通过颜色索引概念(CIC)进行索引,CIC 由颜色词及其对应的整数像素百分比表示。例如,对应旗帜语义概念的第二个 VO(Vo2)的 CIC 为 <r:40,w:45,b:15,g:0…> ,表示 Vo2 有 40% 的红色、45% 的白色和 15% 的蓝色。
- 颜色子面概念结构自动生成的算法步骤如下:
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



