视听语音处理技术解析
1. 面部处理与特征提取
在视听语音处理中,面部处理是重要的一环。首先会对面部进行检测和归一化,以去除面部边缘可能出现的伪影,最后通过直方图均衡化对图像像素进行归一化。
由于面部旋转、遮挡或光照条件不佳等因素,可能导致检测到的面部质量较差,特征不能代表本人。为此,设计了一种筛选最佳面部的方法。对于视频的每一帧 $f$,计算其可靠性得分 $r(f)$,它是检测到的面部与其在特征脸空间投影之间欧几里得距离的倒数。通过设置阈值,筛选出满足 $r(f) > \alpha \cdot \max_{f’ \in N_f} r(f’)$ 的面部,其中 $\alpha = \frac{2}{3}$,$N_f$ 是视频序列中检测到的所有面部集合。只有筛选出的面部才用于身份验证。
2. 音频特征提取
大多数语音识别和说话人验证系统使用短期倒谱特征,其中最流行的是梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)分析得到的倒谱系数。在固定帧(20 - 30 毫秒)上估计短期功率谱,常用帧速率为 100 Hz。获取 MFCC 系数时,对对数功率谱应用余弦变换;获取 PLP 倒谱参数则使用根线性预测倒谱系数(LPCC)分析。
3. 视觉特征提取
视觉特征分为局部特征和全局特征。
- 局部特征 :SIFT(尺度不变特征变换)描述符是优秀的局部描述符之一。其提取过程可大致分为三个阶段:关键点候选提取、过滤和描述符计算。关键点候选提取基于尺度空间理论,提取后会细化位置并确定尺度,然后根据对比度和几何属性进行过滤。每个剩余的关键点通过计算其邻域的梯度方向和大小,并在空间
超级会员免费看
订阅专栏 解锁全文
27

被折叠的 条评论
为什么被折叠?



