可靠基频估计器的 V/NV 分类及 MPEG - 4 场景描述优化
1. V/NV 分类方法介绍
在真实环境语音指令系统中,存在咳嗽、呼吸等杂音,为实现可靠的语音活动检测(VAD),提出了一种 V/NV(语音/非语音)分类方法。该方法通过可靠基频(F0)轮廓在整个输入区间的比例来进行 V/NV 分类。在传统的 F0 提取方法中,YIN 方法表现最佳,因此被采用。
实验结果显示,该方法的误报率为 4.9%,且不存在将语音判定为非语音的漏检错误。这种能够在预处理阶段拒绝非语音输入的 VAD 方法,有助于实现高可靠性的电动轮椅控制系统。此外,该方法还能在无需额外计算的情况下使用输入语音的平均 F0 信息,这对于特定说话人系统的置信度度量是有用的额外信息。值得注意的是,与在奔腾 4 3.2GHz 机器上使用基于过零率(ZCR)的方法相比,基于 YIN 的 VAD 仅增加了 2%的计算成本。
2. MPEG - 4 场景描述优化背景
数字多媒体广播(DMB)系统旨在为移动环境提供高质量的多媒体内容。它采用 MPEG - 4 标准作为主要的视频、音频和其他媒体格式,并采用 MPEG - 4 场景描述来实现交互式多媒体内容。其动画和交互式内容基于 BIFS(场景二进制格式),它规定了各个对象的时空规格和行为。
然而,在移动环境中,用于分配场景描述等元数据的带宽是有限的。DMB 终端在解码音频或视频对象之前,需要先对与场景描述对应的 BIFS 流进行解码和解析。因此,即使音频或视频流以非常低的比特率编码,BIFS 流的传输延迟也会导致整个视听场景呈现的延迟。为了解决这个问题,需要一种有效的优化技术,使 BIFS 流适应预期的 MPEG - 2 TS 比
超级会员免费看
订阅专栏 解锁全文
1581

被折叠的 条评论
为什么被折叠?



