多媒体解释的逻辑形式化:视频解释的逻辑方法
在视频解释领域,不同的本体被广泛应用。一些方法使用时间点(通过定量数值指定),而另一些则使用时间间隔及其之间的定性关系。这些方法的区别在于对要识别事件的声明性规范的程度。
早期方法
符号视频解释的起源可以追溯到Tsotsos等人的开创性工作,他们描述了用于自动心脏病检测的ALVEN系统。ALVEN的基本思想是采用基于帧的表示,每个帧都可以关联描述实例化限制的时空约束。像心脏收缩这样的时空运动现象通过面积变化来描述(初始面积大于结果面积)。这种变化还可以通过速度规格进一步表征,并使用额外的谓词来约束必要条件(例如,面积变化不能太大或太小)。一组基本的运动描述符,如时间间隔、位置变化、长度变化、面积变化、形状变化等,用于描述所有更高级别的运动概念。事件帧可以通过所谓的相似性链接相互连接。ALVEN还探索了不同的事件识别和假设排序技术,其描述语言受到自然语言对运动事件描述的启发。
尽管ALVEN在事件识别过程中使用了过程性描述,并且除了继承推理外,没有将事件识别建模为逻辑推理问题,但它是最早使用显式符号表示的系统之一。它对Neumann等人的工作产生了影响,Neumann等人是最早使用基于逻辑的方法来识别街道场景中事件的研究者之一。
事件定义的定量方法
Neumann和Novak的目标是支持对街道场景事件的查询回答和自然语言描述生成,他们开发的系统称为NAOS(街道场景中对象运动的自然语言描述)。NAOS系统的基础是所谓的几何场景描述(GSD),即每个时间点的描述包含检测到的对象及其类型和位置。
基于低级视频分析过程确定的GSD,生成单个对象的基本运动事件描述。像移动、加速、接近