简介
使用了类似于ViT的思想将视频沿T,H,W方向切割为若干小块并送入Transformer中。音频使用FBank,但将三个时间步的向量合并为一个(即一秒有33.3个声学特征),视频帧也采样到33.3Hz。最后的效果是ASR任务下Transformer在噪声强时效果较好,唇读任务下较好,但是弱噪声和说话声重叠时效果不好。
论文的任务/贡献
设计并使用纯transformer的方法在唇读、音视语音识别任务上提取视觉特征
所提方法
网络结构
视觉前端:
1.baseline:在“Recurrent neural network transducer for Audio-Visual speech recognition”这篇论文的基础上,将[3,3,3]的3D卷积分解成[1,3,3]和[3,1,1]两种核,基于此构建了10层VGG (2+1)D的网络
2.视频transformer:在视频输入(图像块的3D版本)中,每个时间步提取了形状为32×32×8(H×W×T)的空间维度不相交的4维(H×W×T×C)“tubelets”,最终在每个时间步提取了16(4×4)个tubelets。将tubelets展平后送入仿射投影。每个tubelets的embedding与positional embedding相结合并送入6层512维8头注意力的transformer中。transformer最后一层输出送入lip reading AV-ASR网络
损失函数
RNN-T loss
实施
声学特征:FBank,采样率16KHz,25ms Hann窗口,步长10ms,使用了80个log-mel滤波器。将3个连续特征向量折叠在一起,每30ms形成一个240维特征向量,对应于33.3Hz的声学特征,形状为B×T×240
视觉特征:将视频帧最近邻插值到与声学特征采样率相同33.3Hz。对嘴部区域周围的人脸轨迹进行裁剪,得到128×128的图像,RGB通道正则化到[-1,1],使用3D卷积网络为每个视频提取一个张量
融合:串接
编解码器:融合特征送入14层transformer编码器,在送入包含2个2048单元的LSTM层的RNN-T解码器
训练
使用“Large scale deep neural network acoustic modeling with semi-supervised training data for YouTube video transcription”视频中的方法进行半监督训练。
学习率:前30000步线性增长到1e-4,然后保持170000步不变,随后在接下来的100000步退火到1e-6,batch size是1024,Adam优化器
测试
使用LSR3-TED和YTDEV18数据集上做dev和test
结果
lipreading上ViT 3D比VGG(2+1)D好.
AV-ASR:YTDEV18纯净音频上ViT与VGG表现一致,在高噪声情况下ViT略好于VGG,有重叠时不如VGG,推测是由于训练数据和测试数据之间剧烈的domain shift导致的,训练数据用了MTR增强,容易推广到additive噪声。
LRS3-TED上效果不佳。是由于训练集和测试集不匹配导致的,修改训练集后性能能与对照组相仿