论文地址https://arxiv.dosf.top/abs/2305.11579
https://arxiv.dosf.top/abs/2305.11579
代码地址
摘要
最近,语音文本预训练方法在许多语音和自然语言处理任务中取得了显着的成功。然而,大多数以前的预训练模型通常是针对一个或两个特定的任务,但未能征服广泛的语音文本任务。此外,现有的语音文本预训练方法未能探索对话中的上下文信息,以丰富话语表示。在本文中,我们提出了语音文本对话预训练口语对话理解与ExpliCiT cross模态对齐(SPECTRA),这是有史以来第一个语音文本对话预训练模型。具体而言,考虑到语音模态的时间性,我们设计了一个新的时间位置预测任务来捕获语音-文本对齐。该预训练任务旨在预测相应语音波形中每个文本单词的开始和结束时间。此外,为了学习口语对话的特征,我们将文本对话预训练的响应选择任务推广到语音-文本对话预训练场景。在四个不同的下游语音文本任务上的实验结果证明了SPECTRA在学习语音文本对齐和多轮对话上下文方面的优势。
动机
现有的语音文本预训练方法未能探索对话中的上下文信息,以丰富话语表示
构建有效且统一的语音-文本预训练模型用于口语对话理解仍然存在一些技术挑战,这些挑战在先前的工作中没有得到很好的解决。
成果
1)提出了第一个语音文本对话预训练模型——SPECTRA
2)设计了一种新的时间位置预测任务(预训练目标1)
通过预测相应语音波形中每个文本单词的开始和结束时间来捕获语音-文本对齐
3)设计了一个跨模态响应选择目标(预训练目标2)
为了学习口语对话的特征,考虑每个对话中上下文的信息
方法
模型结构(文本编码器、语音编码器、模态融合模块)
1 将文本和音频转换为单峰嵌入。2 分别输入到各自的编码器中获得单峰表示。3 将文本和音频的表示连接输入到模态融合模块,获得融合表示。
文本嵌入
1)文本串联
Ii=<s>ti−k</s>ti−k+1</s>...</s>ti−1</s>ti</s> (其中 <s>代表整个序列的开始,</s>表示每个回合的结束)
2)编码
使用预训练的RoBERTa分词器对Ii中的每个标记进行编码
3)段落嵌入
为了区分对话中不停发言者或者轮次,使用可学习的段落嵌入,et,1 -> 当前轮次ti和最后一个</s> 其他的标记为et,0
文本编码器
RoBERTa
li----文本编码器---->Ht,i (RoBERTa最后一层输出的隐藏状态Ht,i 文本序列表示)
语音编码器
基于WavLM结构设计的(包含:特征提取模块、特征投影模块和Transformer编码器模块)
si-1 和 si 表示上一轮次和当前轮次的语音波形,fi-1 和 fi是对应特征投影层的输出
添加分离标记[SEP]和起始标记[CLS]获得语音序列ai
ai----音频编码器---->Hs,i(Hs,i 表示最后一个Transformer层的隐藏状态,语音序列表示)
融合模块
单独的一个自注意力Transformer层作为模态融合模块
Ht,i 和 Hs,i 连接,分配模态嵌入(em,0->文本)(em,1->音频),输入,得到联合表示Hi
预训练目标
时间位置预测(TPP)
利用Hi的文本部分 预测语音波形中每个单词的开始和结束时间
定义损失函数,Wstart,Wend 是可学习的参数,La是最大语音长度,sij和eij-->话语ti中每个单词wij的开始时间sij和结束时间eij,模型隐藏层Hi,每个单词wij和最后一个标记分别用hsij,heij表示
计算两轮的损失,分母代表ti-1 和 ti 的总长度
跨模态响应选择(CRS)
每个样本Xi,随机替换文本查询ti或语音查询si,这种方式产生三种负样本一个正样本
1)只有语音被替换 2)只有文本被替换 3)都被替换 4)都没被替换
第一个<s>表示该轮次话语文本(和Bert的<cls>作用相同)
送入四分类器,让模型预测当前样本是属于哪种情况
交叉熵损失函数 Lcrs #论文中未给出公式
跨模态屏蔽数据建模(CMDM)
包含 CMLM(跨模态遮蔽语言建模)CMAM(跨模态遮蔽声学建模)
CMLM 类似RoBERTa的MLM任务,随机选取文本输入中的15%的标记进行遮蔽,模型预测被遮蔽位置的原始值,交叉熵损失记为Lcmlm,这项任务可以让模型学习从上下文中推断缺失的信息
CMAM 类似CMAM的处理方式,采用平均绝对误差损失MSE,记为Lcmam
联合训练
实验
MSA数据集
CMU-MOSI 和 CMU-MOSEI
SPECTRA在MOSI和MOSEI上均超越了SOTA
消融实验
(a)不进行多模态预训练 (b) 使用更少的数据进行预训练 (c)无TPP任务 (d)无CRS任务 (e)无完整的对话历史进行预训练
结论
跨模态预训练和模态对齐很必要
更多的预训练数据可以提高模型的性能
本文提出的TPP增强了模型对齐建模能力,CRS任务对于建模多轮对话上下文必不可少
预训练阶段增加对话历史有益于多轮对话的任务
展望
扩展到更多模态任务 或 生成任务。
SPECTRA依赖于大规模口语对话语料库(具有显式的单词级语音文本对齐注释)限制了通用性,未来希望开发一种半监督预训练方法。