数据挖掘:多媒体与文本处理的前沿技术
1. 多媒体数据挖掘:以MPEG - 7与视频处理为例
1.1 MPEG - 7标准概述
MPEG - 7并非针对某一特定应用,而是标准化了一系列元素,以支持尽可能广泛的应用。其对视听数据的描述涵盖静态图片、视频、图形、音频、语音、三维模型,以及这些数据元素在多媒体展示中的组合信息。MPEG - 7委员会标准化的元素包括:
- 描述符集合:每个描述符定义特征(如颜色、形状、纹理等)的语法和语义。
- 描述符方案集合:规定组件(描述符或描述方案)之间关系的结构和语义。
- 描述符编码方案集合。
- 描述定义语言(DDL):用于指定方案和描述符。
这些标准化工作极大地促进了基于内容的视频检索和视频数据挖掘。
1.2 视频处理与关键帧提取
将视频片段视为一系列静态图片并逐一分析是不现实的,因为图片数量过多且相邻图像相似度高。为捕捉视频的故事或事件结构,可将视频片段看作一系列随时间发生的动作和事件,并先将其分割为视频镜头。视频镜头是一组帧,其中相邻帧的内容不会突然改变。镜头中最具代表性的帧被视为关键帧。关键帧可采用基于内容的图像检索中的特征提取和分析方法进行分析,关键帧序列可用于定义视频片段中事件的发生顺序。因此,视频镜头检测和关键帧提取是视频处理和挖掘的关键任务。
1.3 视频数据挖掘现状与任务
视频数据挖掘仍处于起步阶段,在成为通用实践之前,还有许多研究问题需要解决。该领域的重要数据挖掘任务包括基于相似度的预处理、压缩、索引和检索、信息提取、冗余去除、频繁模式发现、分类、聚类以及趋势和异常检测。