视听语音处理实验探究
在视听语音处理领域,涉及到多个关键环节,包括特征提取、模型构建、特征融合以及实际应用等。下面将详细探讨这些方面的内容。
1. 特征提取
特征提取是视听语音处理的基础,它包括面部处理、音频特征提取和视觉特征提取。
1.1 面部处理
为了去除面部边缘可能出现的伪影,会对面部进行检测和归一化处理。最后,通过直方图均衡化对图像像素进行归一化。对于视频中的面部,由于面部旋转、遮挡或光照条件不佳可能导致检测到的面部质量较差,其特征不能代表本人,因此设计了一种方法来筛选出最佳面部。具体做法是,为视频的每一帧 $f$ 计算可靠性得分 $r(f)$,它是检测到的面部与其在特征脸空间投影之间欧几里得距离的倒数。然后应用一个阈值来筛选面部,只有当 $r(f) > \alpha \cdot \max_{f’ \in N_f} r(f’)$ 时,面部 $f$ 才会被选中,其中 $N_f$ 是视频序列中检测到的所有面部的集合,在实验中 $\alpha = \frac{2}{3}$。只有被选中的面部才会用于身份验证。
1.2 音频特征
大多数语音识别和说话人验证系统使用短期倒谱特征。最流行的两组特征是通过梅尔频率倒谱系数(MFCC)分析获得的倒谱系数,以及基于感知线性预测(PLP)分析计算得到的特征。在这两种情况下,都会在固定帧(20 - 30 毫秒)上估计短期功率谱,最常用的帧速率是 100 Hz。为了得到 MFCC 系数,会对对数功率谱应用余弦变换;而使用根线性预测倒谱系数(LPCC)分析来获得 PLP 倒谱参数。
1.3 视觉特征
视觉特征分为局部特征和全局特征。
超级会员免费看
订阅专栏 解锁全文
1328

被折叠的 条评论
为什么被折叠?



