Audio-Visual Speech Recognition is Worth 32×32×8 Voxels

该博客探讨了一种使用Transformer处理视频和音频的方法,特别是在唇读和音视语音识别任务上。通过将视频切分为tubelets并送入Transformer,以及结合FBank声学特征,模型在高噪声环境下表现出色。然而,在说话声重叠和弱噪声条件下,其性能下降,可能由于训练数据与测试数据之间的域转移问题。研究还指出,经过调整后的训练集可以改善模型在特定数据集上的表现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

使用了类似于ViT的思想将视频沿T,H,W方向切割为若干小块并送入Transformer中。音频使用FBank,但将三个时间步的向量合并为一个(即一秒有33.3个声学特征),视频帧也采样到33.3Hz。最后的效果是ASR任务下Transformer在噪声强时效果较好,唇读任务下较好,但是弱噪声和说话声重叠时效果不好。

论文的任务/贡献

设计并使用纯transformer的方法在唇读、音视语音识别任务上提取视觉特征

所提方法

网络结构

在这里插入图片描述
视觉前端:
1.baseline:在“Recurrent neural network transducer for Audio-Visual speech recognition”这篇论文的基础上,将[3,3,3]的3D卷积分解成[1,3,3]和[3,1,1]两种核,基于此构建了10层VGG (2+1)D的网络
2.视频transformer:在视频输入(图像块的3D版本)中,每个时间步提取了形状为32×32×8(H×W×T)的空间维度不相交的4维(H×W×T×C)“tubelets”,最终在每个时间步提取了16(4×4)个tubelets。将tubelets展平后送入仿射投影。每个tubelets的embedding与positional embedding相结合并送入6层512维8头注意力的transformer中。transformer最后一层输出送入lip reading AV-ASR网络

损失函数

RNN-T loss

实施

声学特征:FBank,采样率16KHz,25ms Hann窗口,步长10ms,使用了80个log-mel滤波器。将3个连续特征向量折叠在一起,每30ms形成一个240维特征向量,对应于33.3Hz的声学特征,形状为B×T×240
视觉特征:将视频帧最近邻插值到与声学特征采样率相同33.3Hz。对嘴部区域周围的人脸轨迹进行裁剪,得到128×128的图像,RGB通道正则化到[-1,1],使用3D卷积网络为每个视频提取一个张量
融合:串接
编解码器:融合特征送入14层transformer编码器,在送入包含2个2048单元的LSTM层的RNN-T解码器

训练

使用“Large scale deep neural network acoustic modeling with semi-supervised training data for YouTube video transcription”视频中的方法进行半监督训练。
学习率:前30000步线性增长到1e-4,然后保持170000步不变,随后在接下来的100000步退火到1e-6,batch size是1024,Adam优化器

测试

使用LSR3-TED和YTDEV18数据集上做dev和test

结果

lipreading上ViT 3D比VGG(2+1)D好.
AV-ASR:YTDEV18纯净音频上ViT与VGG表现一致,在高噪声情况下ViT略好于VGG,有重叠时不如VGG,推测是由于训练数据和测试数据之间剧烈的domain shift导致的,训练数据用了MTR增强,容易推广到additive噪声。
LRS3-TED上效果不佳。是由于训练集和测试集不匹配导致的,修改训练集后性能能与对照组相仿
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值