视频语义模型评估方法解析
1. 视频语义模型概述
在处理视频数据时,存在低、中、高三个层次的数据模型。其中,高层语义数据模型最为重要,它以对象(包括具体物体和抽象概念)、事件及其关系来表示视频内容,支持以接近人类描述视频内容的语言进行查询。
自 20 世纪 90 年代初引入视频语义模型以来,其发展经历了从基于标注的模型到丰富语义模型的演变。基于标注的模型通过文本标注视频数据来表示视频语义,但其表达能力和查询能力有限。而丰富语义模型在这两方面则强大得多,它能表示视频中出现的现实世界对象、抽象概念,甚至是视频中未出现但隐含的背景知识。
2. 现有模型回顾
-
基于标注的模型
- 基本思想 :将内容信息置于视频流之上,而非将视频数据分割成镜头。标注可以是预定义关键词、自由文本或结构化数据,每个标注与一个逻辑视频段相关联。这种相对简单的结构使基于标注的模型具有很大的灵活性,但也限制了它们的表达能力和查询支持能力。
- 典型模型
- OVID :无需模式,每个视频对象是一个独立对象,具有自己的属性集,描述数据可通过“基于区间包含的继承”共享。
- VideoStar :是一个强类型模型,预定义了几个类来建模视频结构,类 Annotations 支持主题索引。
- CCM :
超级会员免费看
订阅专栏 解锁全文
1165

被折叠的 条评论
为什么被折叠?



