论文:https://arxiv.org/pdf/1911.11502.pdf
代码:无
标题:听唇:通过蒸馏语音识别器改善唇读
关键词:多模态、语音唇读LIBS、CMLR中文数据集、Lip by Speech (LIBS)、CSSMCM、attention-based sequence-to-sequence model
[sos] => 句子起始标识符、[eos] => 句子结束标识符和 [pad] => 补全字符、
word embedding:通俗的翻译可以认为是单词嵌入,就是把X所属空间的单词映射为到Y空间的多维向量;就是找到一个映射或者函数,生成在一个新的空间上的表达。
alignment score function、alignment
Teacher Forcing 机制:RNN有两种训练模式:(1)free-running mode:上一个state的输出作为下一个state的输入;(2)teacher-forcing mode:使用给定的target即标签作为输入
Character Error Rate (CER):字错误率,中文语句中的最小单位是汉字,使用CER作为指标
Word Error Rate (WER):单词错误率,英文语句中最小单位是单词,使用WER作为指标
BLEU:(bilingual evaluation understudy),即:双语互译质量评估辅助工具。机器翻译结果越接近专业人工翻译的结果,则越好;BLUE去做判断:一句机器翻译的话与其相对应的几个参考翻译作比较,算出一个综合分数。这个分数越高说明机器翻译得越好。(注:BLEU算法是句子之间的比较,不是词组,也不是段落)
beam search:集束搜索,
grid search:Grid Search是一种调参的手段,即穷举,穷举所有的超参组合。以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索
摘要:
近年来,由于深度学习和大规模数据集的出现,唇读得到了无与伦比的发展。尽管取得了令人鼓舞的成果,但遗憾的是,由于唇部动作的模糊性,使得从唇部动作视频中提取判别特征具有挑战性,因此唇部阅读的性能仍然不如其对应的语音识别。在本文中,我们提出了一种新的方法,被称为 "语音唇读"(LIBS),其目的是通过学习语音识别器来加强唇语阅读。我们的方法背后的原理是,从语音识别器中提取的特征可以提供补充性和鉴别性的线索,这些线索很难从嘴唇的微妙运动中获得,因此有利于读唇器的训练。具体来说,这是通过从语音识别器中提炼出多模态知识给读唇器来实现的。为了进行这种跨模式的知识提炼,我们利用一种有效的对齐方案(指后文的帧级别的知识蒸馏)来处理音频和视频的长度不一致的问题,以及一种创新的过滤策略(指后文的LCS)来完善语音识别器的预测。所提出的方法在CMLR和LRS2数据集上实现了新的最先进的性能,在字符错误率方面分别比基准线高出了7.66%和2.75%。
贡献:提出音频视频对齐方案,使用新的过滤策略从不同层面进行知识蒸馏
介绍:
唇读,也称为视觉语音识别,旨在预测正在说出的句子,给定一个正在说话的人脸的静音视频。得益于最近深度学习的发展和用于训练的大数据的可用性,唇读取得了前所未有的进展,性能得到了很大提高(Assael et al. 2016; Chung et al. 2017; Zhao, Xu, and Song 2019)。
尽管取得了令人鼓舞的成就,但基于视频的唇读的性能仍然远低于其对应的基于音频的语音识别,基于音频的语音识别的目标也是解码口语文本,因此可以被视为与唇读共享相同底层分布的异类模态。给定相同数量的训练数据和模型架构,在语音识别和唇读的字符错误率方面,性能差异分别高达10.4%和39.5%(Chung et al . 2017)。这是由于嘴唇动作本质上的模糊性:几个看似相同的嘴唇动作可能产生不同的单词,使得从感兴趣的视频中提取鉴别特征并进一步可靠地预测文本输出非常具有挑战性。
在这篇论文中,我们提出了一个新颖的方案,通过语音唇读(LIBS),它利用语音识别,其性能在大多数情况下是令人满意的,以促进更具挑战性的唇读的训练。我们假设给定一个预先训练好的语音识别器,并尝试提取隐藏在语音识别器中的知识给待训练的目标唇读器。
利用知识蒸馏(Hinton、Vinyals和Dean 2015)完成这项任务的基本原理在于,声音语音信号包含的信息与视觉信号的信息是互补的。例如,具有细微运动的话语很难在视觉上区分,但在大多数情况下,在听觉上很容易识别(Wolff et al. 1994)。通过模仿由语音识别器提取的声学语音特征,唇读器有望增强其提取判别视觉特征的能力。为此,LIBS被设计成在多个时间尺度上提取知识,包括序列级、上下文级和帧级,以便对来自输入序列的多粒度语义进行编码。
然而,从一个异质的模态中提取知识,在这个例子中是音频序列,面临两个主要的挑战。第一个原因在于,这两种模态可能以不同的采样率为特征,因此是异步的,而第二个原因在于不完美的语音识别预测。为此,我们采用跨模态对齐策略,通过寻找音频和视频之间的对应关系来同步音频和视频数据,从而进行从音频特征到视觉特征的细粒度知识蒸馏。另一方面,为了增强语音预测,我们引入了一种过滤技术来细化蒸馏特征,以便可以过滤有用的特征来进行知识提取。
在CMLR (Zhao, Xu, and Song 2019) 和 LRS2 (Afouras et al. 2018)两个大规模唇读数据集上的实验结果表明,该方法优于现有技术。我们在数据集上实现了31.27%的字符错误率(CER)CMLR Benchmark (Lipreading) | Papers With Code,比基线提高了7.66%,在LRS2上实现了45.53%的字符错误率,比基线提高了2.75%。值得注意的是,当训练数据量减少时,所提出的方法往往会产生更大的性能增益。例如,当只使用了20%的训练