Audio-Visual Speech Recognition is Worth 32×32×8 Voxels_audio-visual recognition-优快云博客

本文链接：https://blog.youkuaiyun.com/a404NotFound/article/details/121769877

该博客探讨了一种使用Transformer处理视频和音频的方法，特别是在唇读和音视语音识别任务上。通过将视频切分为tubelets并送入Transformer，以及结合FBank声学特征，模型在高噪声环境下表现出色。然而，在说话声重叠和弱噪声条件下，其性能下降，可能由于训练数据与测试数据之间的域转移问题。研究还指出，经过调整后的训练集可以改善模型在特定数据集上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

简介

使用了类似于ViT的思想将视频沿T,H,W方向切割为若干小块并送入Transformer中。音频使用FBank，但将三个时间步的向量合并为一个（即一秒有33.3个声学特征），视频帧也采样到33.3Hz。最后的效果是ASR任务下Transformer在噪声强时效果较好，唇读任务下较好，但是弱噪声和说话声重叠时效果不好。

论文的任务/贡献

设计并使用纯transformer的方法在唇读、音视语音识别任务上提取视觉特征

所提方法

网络结构

在这里插入图片描述
视觉前端：
1.baseline:在“Recurrent neural network transducer for Audio-Visual speech recognition”这篇论文的基础上，将[3,3,3]的3D卷积分解成[1,3,3]和[3,1,1]两种核，基于此构建了10层VGG (2+1)D的网络
2.视频transformer:在视频输入（图像块的3D版本）中，每个时间步提取了形状为32×32×8(H×W×T)的空间维度不相交的4维（H×W×T×C）“tubelets”，最终在每个时间步提取了16(4×4)个tubelets。将tubelets展平后送入仿射投影。每个tubelets的embedding与positional embedding相结合并送入6层512维8头注意力的transformer中。transformer最后一层输出送入lip reading AV-ASR网络

损失函数

RNN-T loss

实施

声学特征：FBank，采样率16KHz，25ms Hann窗口，步长10ms，使用了80个log-mel滤波器。将3个连续特征向量折叠在一起，每30ms形成一个240维特征向量，对应于33.3Hz的声学特征，形状为B×T×240
视觉特征：将视频帧最近邻插值到与声学特征采样率相同33.3Hz。对嘴部区域周围的人脸轨迹进行裁剪，得到128×128的图像，RGB通道正则化到[-1,1]，使用3D卷积网络为每个视频提取一个张量
融合：串接
编解码器：融合特征送入14层transformer编码器，在送入包含2个2048单元的LSTM层的RNN-T解码器

训练

使用“Large scale deep neural network acoustic modeling with semi-supervised training data for YouTube video transcription”视频中的方法进行半监督训练。
学习率：前30000步线性增长到1e-4，然后保持170000步不变，随后在接下来的100000步退火到1e-6，batch size是1024，Adam优化器

测试

使用LSR3-TED和YTDEV18数据集上做dev和test

结果

lipreading上ViT 3D比VGG(2+1)D好.
AV-ASR：YTDEV18纯净音频上ViT与VGG表现一致，在高噪声情况下ViT略好于VGG，有重叠时不如VGG，推测是由于训练数据和测试数据之间剧烈的domain shift导致的，训练数据用了MTR增强，容易推广到additive噪声。
LRS3-TED上效果不佳。是由于训练集和测试集不匹配导致的，修改训练集后性能能与对照组相仿
在这里插入图片描述