Unsupervised Sign Language Translation and Generation

无监督手语翻译和生成(原文连接:https://arxiv.org/abs/2402.07726

Abstract

受无监督神经机器翻译Unsupervised Neural Machine Translation(UNMT)成功的启发,我们引入了一种无监督的手语翻译和生成网络unsupervised sign language translation and generation network(USLNet),该网络从大量的单模态(文本和视频)数据中学习,而不需要并行的手语数据。USLNet包括两个主要部分:单模态重构模块(文本和视频)以相同的模态从噪声版本重建输入,跨模态反翻译模块(文本-视频-文本和视频-文本-视频)使用反翻译程序从不同的模态从噪声版本重建输入。与基于文本的UNMT中的单模态反翻译过程不同,USLNet面临着特征表示的跨模态差异,即文本序列和视频序列之间的长度和特征维度不匹配。我们提出了一种滑动窗口方法来解决可变长度文本与视频序列对齐的问题。据我们所知,USLNet是第一个能够统一生成自然语言文本和手语视频的无监督手语翻译和生成模型。在英国广播公司-牛津手语数据集(BOBSL)和开放域美国手语数据集(OpenASL)上的实验结果表明,USLNet在手语翻译和生成方面取得了与监督基线模型相当的结果,表明了USLNet在手语翻译和生成方面的有效性。

1 Introduction

手语翻译和生成(SLTG)已经成为促进聋人和听力健全社区之间交流的重要任务(Angelova et al.,2022a)。手语翻译涉及到将手语视频转换为自然语言,而手语生成涉及到从自然语言生成手语视频。

近年来,手语翻译和生成取得了很大的进展。然而,训练SLTG模型需要大量的并行视频文本语料库,当训练数据不足时,这种方法是无效的(Müller et al., 2022a)。此外,手工和专业的手语注释既昂贵又耗时。受无监督机器翻译(UNMT)成功的启发(Artetxe等人,2018;Lample等人)和无监督图像到图像翻译(Liu等人,2017),我们提出了一种不依赖于任何并行视频文本语料库的无监督SLTG模型。

在这项工作中,我们提出了一个无监督的SLTG网络(USLNet),它从大量的单模态(文本和视频)数据中学习,而不需要任何并行的手语数据。与UNMT类似,USLNet由下列部分组成:文本重建模块(§2.1)和符号视频重建模块(§2.2),它们从具有噪声的版本中以相同的模态重建输入,以及跨模态反翻译模块(§2.3),它们使用反翻译过程从具有噪声的版本中以不同的模态重建输入。

与基于文本的UNMT中的单模态反翻译不同,USLNet面临着跨模态差异的挑战。手语和口语在情态、结构和表达方面表现出截然不同的特点。手语依赖于视觉手势、面部表情和身体动作来传达意思,而口语依赖于音素、单词和语法规则的序列(Chen et al., 2022)。特征表示的跨模态差异给USLNet带来了独特的挑战。

为了解决特征表示中的跨模态差异,通常的做法是使用线性投影将表征从单模态表示映射到共享的多模态嵌入空间(Radford et al., 2021)。这种方法有效地弥合了不同特征表示之间的差距,促进了信息的无缝集成,提高了模型处理跨模式翻译任务的整体性能。在这项工作中,我们提出了一种滑动窗口方法来解决文本与视频序列对齐的问题。

据我们所知,USLNet是第一个能够以统一的方式生成文本和手语视频的无监督SLTG模型。在BBC-Oxford手语数据集(BOBSL) (Albanie等人,2021)和开放域美国手语数据集(OpenASL) (Shi等人,2022)上的实验结果表明,与监督基线模型(Sincan等人,2023)相比,USLNet取得了有竞争力的结果;Shi et al., 2022)表明其在手语翻译和生成中的有效性。

我们的贡献总结如下:

  1. USLNet是第一个用于手语翻译和生成的无监督模型,解决了高质量平行手语资源稀缺的挑战。
  2. USLNet是一个全面的通用模型,能够以统一的方式高效地执行手语翻译和生成任务。
  3. 与BOBSL数据集上之前的监督方法相比,USLNet展示了具有竞争力的性能。

2 Methodology

本研究提出的框架由四个主要组件组成:文本编码器、文本解码器、视频编码器和视频解码器。如图2所示,USLNet框架包含四个模块:文本重建模块(图2中的灰线)、手势视频重建模块(图2中的蓝线)、文本-视频-文本反翻译(T2V2T-BT)模块,该模块首先将输入文本翻译成伪视频(图2中的红线),然后将伪视频反翻译成文本(图2中的黄线),视频-文本-视频反翻译(V2T2V-BT)模块,先将输入的视频翻译成伪文本(图2黄线),再将伪文本反翻译成视频(图2红线)。后两个模块由于使用了反翻译过程,被视为跨模态反翻译模块。在本节中,我们将首先描述每个模块,然后介绍训练过程。

任务定义

我们正式定义了无监督手语翻译和生成的设定。具体来说,我们的目标是开发一个USLNet,它可以有效地执行手语翻译和生成任务,利用可用的文本语料库 T = { t i } i = 1 M \mathcal{T}=\{\mathrm{t}^i\}_{i=1}^M T={ti}i=1M和手语视频语料库 V = { v j } j = 1 N \mathcal{V}=\{\mathrm{v}^j\}_{j=1}^N V={vj}j=1N,其中 M M M N N N分别是文本和视频语料库的大小。

2.1 Text Reconstruction Module

在这里插入图片描述
图2: 所提出的USLNet的总体框架。灰线表示文本重建过程。蓝线表示视频重建过程。黄线表示将视频翻译成相应文本的手语翻译程序。红线表示将文本翻译成相应视频的手语生成程序。

图2所示,文本重构模块使用文本编码器和文本解码器从其损坏的版本中重构出原始文本。在(Song et al.,2019)的实现之后,我们使用掩码序列到序列学习来实现文本重建。具体来说,给定输入文本 t = ( t 1 , … , t n ) \mathrm{t}=(\mathrm{t}_1,\dots,\mathrm{t}_n) t=(t1,,tn)有n个单词,我们随机屏蔽输入文本中 0 < u < v < n 0<u<v<n 0<u<v<n的句子片段 t u : v \mathrm{t}^{\mathrm{u}:\mathrm{v}} tu:v来构建预测序列。采用文本编码器 E N C − T E X T {\large{\mathrm{E}}}\mathrm{NC-TEXT} ENCTEXT对掩码序列 t ∖ u : v \mathrm{t}^{\setminus{\mathrm{u:v}}} tu:v进行编码,采用文本解码器 D E C − T E X T {\large{\mathrm{D}}}\mathrm{EC-TEXT} DECTEXT对掩码序列 t u : v \mathrm{t}^{\mathrm{u}:\mathrm{v}} tu:v的缺失部分进行预测。以对数似然作为优化目标函数:

L t e x t = 1 ∣ T ∣ ∑ t ∈ T log ⁡ P ( t u : v ∣ t ∖ u : v ) (1) \mathcal{L}_\mathrm{text}=\frac{1}{\lvert{\mathcal{T}}\rvert}\sum_{t \in \mathcal{T}}\log P(\mathrm{t}^{\mathrm{u:v}}\mid \mathrm{t}^{\setminus \mathrm{u:v}}) \tag{1} Ltext=T1tTlogP(tu:vtu:v)(1)

该任务有助于模型学习底层文本结构和语义,同时增强其管理噪声或不完整输入的能力。

2.2 Sign Video Reconstruction Module

图1所示,手势视频重构模块从原始视频数据的下采样离散潜在表示重构原始视频。在这项工作中,我们采用了VideoGPT{ (Yan et al., 2021)架构来构建标识视频重构模块。VideoGPT由量化和视频序列生成两个顺序阶段组成。
在这里插入图片描述
图1: 手势视频重构模块示意图。该模块负责从原始视频数据的下采样离散潜在表示重建原始视频。在量化阶段,该模块使用码本将视频嵌入转换为离散的视频令牌。然后将这些视频标记输入GPT以生成下一个可视标记。

量化
VideoGPT采用3D卷积和转置卷积以及VQ-VAE自编码器的轴向关注,从视频帧的原始像素中学习一组下采样的离散潜在表示。具体来说,在量化阶段,给定一个有n个像素帧的输入视频 v = ( v 1 , … , v n ) \mathrm{v=(v_1, \dots , v_n)} v=(v1,,vn),视频编码器将输入 v \mathrm{v} v编码为视频嵌入 E v = ( E v 1 , … , E v n ) \mathrm{E}_\mathrm{v}=(\mathrm{E}_{\mathrm{v}_1}, \dots, \mathrm{E}_{\mathrm{v}_n}) Ev=(Ev1,,Evn),然后通过在码本嵌入 C = { e i } i = 1 N \mathrm{C}=\{{\mathrm{e}_i}\}^N_{i=1} C={ei}i=1N中执行最近邻查找将 E v \mathrm{E}_{\mathrm{v}} Ev离散化,如公式(2)所示。随后, E v \mathrm{E}_{\mathrm{v}} Ev可以表示为离散编码 E v q \mathrm{E}_{\mathrm{v}}^{\mathrm{q}} Evq,它由码本中最近的嵌入索引组成,如公式(3)所示。最后,视频解码器从量化编码中的重构输入 v \mathrm{v} v中学习。

E v i = e k , w h e r e   k = arg ⁡ min ⁡ j ∥ E v i − e j ∥ 2 (2) \mathrm{E}_{\mathrm{v}_i} = \mathrm{e}_{\mathrm{k}} ,\mathrm{where \: \large k}={\arg\min}_j\Vert \mathrm{E}_{\mathrm{v}_i}- \mathrm{e}_j \Vert_2 \tag{2} Evi=ek,wherek=argminjEviej2(2)

E v → E v q = ( k 1 , … , k n ) , w h e r e   k i = arg ⁡ min ⁡ j ∥ E v i − e j ∥ 2 (3) \mathrm{E}_\mathrm{v} \to \mathrm{E}_{\mathrm{v}}^{\mathrm{q}} = (\mathrm{k_1, \dots, k_n}) ,\mathrm{where \: \large {k_i}}={\arg\min}_j\Vert \mathrm{E}_{\mathrm{v}_i}- \mathrm{e}_j \Vert_2 \tag{3} EvEvq=(k1,,kn),whereki=argminjEviej2(3)

E v i \mathrm{E}_{\mathrm{v}_i} Evi e j \mathrm{e_j} ej的相似度作为优化目标函数:

L c o d e b o o k = 1 ∣ C ∣ ∑ e j ∈ C ∥ E v i − e j ∥ 2 (4) \mathcal{L}_{codebook} = \frac{1}{\lvert \mathcal{C} \rvert} \sum_{e_j \in \mathcal{C}}\Vert E_{v_i}-e_j \Vert_2 \tag{4} Lcodebook=C1ejCEviej2(4)

视频序列生成
经过量化阶段,离散视频编码 E v q = ( k 1 , … , k n ) \mathrm{E_v^q=(k_1, \dots, k_n)} Evq=(k1,,kn)输入GPT解码器,生成下一个 k n + 1 \mathrm{\large{k}_{n+1}} kn+1视频"word"。自回归生成的视频 v r e c o n \mathrm{v_{recon}} vrecon与原始输入视频 v \mathrm{v} v的相似度作为优化目标函数:

L v i d e o = 1 ∣ V ∣ ∑ v ∈ V ∥ v r e c o n − v ∥ 2 (5) \mathrm{\mathcal{L}_{video}=\frac{1}{\lvert \mathcal{V} \rvert} \sum_{v \in \mathcal{V}}\|v_{recon}-v\|_2} \tag{5} Lvideo=V1vVvreconv2(5)

2.3 Cross-modality Back-Translation Module

跨模态反翻译模块包括两个任务:文本-视频-文本反翻译(T2V2T-BT)和视频-文本-视频反翻译(V2T2V-BT)。与使用相同模态的传统反翻译(Sennrich et al., 2016)相比,跨模态反翻译遇到了解决不同模态之间差异的挑战(Ye et al., 2023)。受最近的作品Visual-Language Mapper (Chen et al., 2022)的启发,我们提出了一个滑动窗口对齐器的实现,以促进跨模态表示的映射。

滑动窗口对齐
提出了滑动窗口对齐器来解决文本和视频模态表示之间的差异。具体来说,文本和视频表示序列之间的两个主要区别是隐藏维度和序列长度差异。考虑到这些差异,对齐由长度映射器 M L \mathrm{M^L} ML和维度映射器 M D \mathrm{M^D} MD两部分组成。考虑到不同的反向翻译方向(V2T2V和T2V2T),维度映射器包括文本到视频的映射器 M T → V D \mathrm{M^D_{T \to V}} MTVD和视频到文本的映射 M V → T D \mathrm{M^D_{V \to T}} MVTD

给定文本编码的输出 E t \mathrm{E_t} Et,文本解码器输入 D t \mathrm{D_t} Dt,码本重构视频嵌入 E v \mathrm{E_v} Ev,videoGPT的输入 D v \mathrm{D_v} Dv,特征维变换过程如下:

D v = M L ( M T → V D ( E t ) ) (6) \mathrm{D_v=M^L(M_{T \to V}^D(E_t))} \tag{6} Dv=ML(MTVD(Et))(6)

D t = M L ( M V → T D ( E v ) ) (7) \mathrm{D_t=M^L(M_{V \to T}^D(E_v))} \tag{7} Dt=ML(MVTD(Ev))(7)

为了解决长度差异问题,我们设计了长度映射器 M L \mathrm{M^L} ML方法,该方法采用滑动窗口方法。根据(SuttonSpence and Woll, 1999)的研究,在翻译文本时,手语特别受英语词序的影响。在英国手语的语境中,演讲者可能会遵循更像英语的词序。基于这种语言理解,我们提出了一种方法,其中源序列被划分为不同的窗口,允许目标序列中的每个单词与其相应的源窗口更紧密地对齐。

以文本到视频的滑动窗口方法为例,假设输入文本序列 t = ( t 1 , … , t m ) \mathrm{t = (t_1, \dots,t_m)} t=(t1,,tm) 有m个单词,视频序列 v = ( v 1 , … , v n ) \mathrm{v = (v_1, \dots,v_n)} v=(v1,,vn)有n个帧,且m > n,长度映射器 M L \mathrm{M^L} ML,其描述如下:

v i = ∑ i = 1 n α i t i (8) \mathrm{v_i=\sum_{i=1}^n \alpha_i t_i}\tag{8} vi=i=1nαiti(8)

[ α 1   …   α n ] = s o f t m a x ( [ β 1   …   β n ] ) (9) [\alpha_1 \: \dots \: \alpha_n]=\mathrm{softmax}([\beta_1 \: \dots \: \beta_n]) \tag{9} [α1αn]=softmax([β1βn])(9)

β i ∈ { [ p ( μ + σ ) , p ( μ ) ] , i ∈ W c [ p ( μ + 2 σ ) , p ( μ + σ ) ] , i ∈ W a [ p ( μ + 3 σ ) , p ( μ + 2 σ ) ] , i ∈ W o } (10) \beta_i \in\left\{\begin{matrix} [p(\mu+\sigma), & p(\mu)], & i \in W_c \\ [p(\mu+ 2 \sigma), & p(\mu + \sigma)], & i \in W_a \\ [p(\mu+ 3 \sigma), & p(\mu + 2 \sigma)], & i \in W_o \\\end{matrix}\right\} \tag{10} βi [p(μ+σ),[p(μ+2σ),[p(μ+3σ),p(μ)],p(μ+σ)],p(μ+2σ)],iWciWaiWo (10)

如公式(8)所示,每个视频词接受所有文本词的信息。然而,目标序列中的每个单词与其对应的窗口更紧密地对齐。例如,开始的视频帧传达了关于前一些文本单词的更多信息。具体来说,权重系数 [ α 1 , α 2 , … , α n ] [\alpha_1,\alpha_2,\dots,\alpha_n] [α1,α2,,αn]来源于 X = [ β 1 , β 2 , … , β n ] X = [\beta_1, \beta_2, \dots, \beta_n] X=[β1,β2,,βn]。X服从高斯分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μσ2) β i \beta_i βi的值取决于token i的位置,并分为三个概率区间 [ p ( ⋅ ) , p ( ⋅ ) ] [p(\cdot),p(\cdot)] [p()p()],如公式(10)所示。 W c , W a , W o W_c,W_a,W_o Wc,Wa,Wo代表不同的位置间隔,即当前窗口、相邻窗口和其他位置。token β i \beta_i βi的值随着其与当前窗口的接近度增加而呈上升趋势。在token i落在当前窗口 W c W_c Wc范围内的情况下,权重系数被分配给最高的间隔。

例如,假设文本有6个单词 t = ( t 1 , … , t 6 ) \mathrm{t = (t_1, \dots, t_6)} t=(t1,,t6),视频有4帧 v = ( v a , v b , v c , v d ) \mathrm{v = (v_a, v_b, v_c, v_d)} v=(va,vb,vc,vd)。窗口大小可计算为:取上界 ⌈ 6 / 4 ⌉ = 2 \lceil 6/4 \rceil=2 6/4=2。如图3所示,在生成第一个视频标记 v a v_a va时,它合并了来自所有文本标记的信息,同时将最高权重系数 β 1 \beta_1 β1放在前几个文本单词 W c W_c Wc上。同时,token β i \beta_i βi的值随着其与当前窗口的接近度减小 ( β 1 > β 2 > β 3 ) (\beta_1 > \beta_2 > \beta_3) (β1>β2>β3)而呈下降趋势。
图3

图3:左:描述第一步滑动窗口对齐器的图。右:满足不同位置单词权重系数的概率分布(高斯分布)的可视化。在第一步,我们通过滑动窗口对齐器计算伪视频“序列”的第一个标记“a”。

我们引入维度映射器 M D \mathrm{M^D} MD来解决不同模态中隐藏维度的差异。例如, M T → V D ( E t ) \mathrm{M^D_{T→V}(E_t)} MTVD(Et)将文本嵌入的隐藏维度转换为视频嵌入的隐藏维度,促进文本和视觉信息的整合和对齐,以改进多模态任务。

跨模态反翻译
在这里插入图片描述

图4:描述跨情态反译过程的图。左子图描述了文本-视频-文本反翻译(T2V2T-BT)过程,而右子图展示了视频-文本-视频反翻译(V2T2V-BT)过程。每个子图都提供了相应的反向翻译过程的逐步描述。箭头旁边分配的数字表示步骤的先后顺序。例如,“2”表示该步骤是过程中的第二步。

如图4所示,T2V2T-BT将给定的文本序列转换为标识视频,然后将生成的标识视频转换回文本。T2V2T-BT的目标是确保生成的文本与原始文本的一致性,同时准确地将视频翻译回原始文本。这项任务有助于模型捕捉文本和视频模式之间的语义和视觉对应关系,并理解输入数据的底层结构和时间动态。将回译文本tBT与原始输入文本t的相似度作为优化目标函数:

L T 2 V 2 T = 1 ∣ T ∣ ∑ t ∈ T ∥ t B T − t ∥ 2 (11) \mathrm{\mathcal{L}_{T2V2T}=\frac{1}{\lvert \mathcal{T} \rvert} \sum_{t \in \mathcal{T}}\Vert t_BT - t\Vert_2 } \tag{11} LT2V2T=T1tTtBTt2(11)

类似地,V2T2V-BT任务要求模型将给定的视频翻译成相应的文本描述,然后使用原始视频作为参考,将生成的文本翻译回视频,如图4所示。将回译视频vBT与原始输入视频v的相似度作为优化目标函数:

L V 2 T 2 V = 1 ∣ V ∣ ∑ v ∈ V ∥ v B T − v ∥ 2 (12) \mathrm{\mathcal{L}_{V2T2V}=\frac{1}{\lvert \mathcal{V} \rvert} \sum_{v \in \mathcal{V}}\Vert v_BT - v\Vert_2 } \tag{12} LV2T2V=V1vVvBTv2(12)

总的来说,我们提出的USLNet的跨模态反翻译模块旨在通过学习两种模态之间一致且有意义的映射,以无监督的方式提高模型在文本和视频模态之间进行翻译的能力。

2.4 Unsupervised Joint Training

USLNet的训练目标结合了上述损失项,实现了文本网络和视频网络的联合优化。 L t e x t L_{text} Ltext L v i d e o L_{video} Lvideo的损失鼓励生成器网络在相同模态内从其噪声版本重建输入,而 L T 2 V 2 T L_{T2V2T} LT2V2T L V 2 T 2 V L_{V2T2V} LV2T2V的损失鼓励USLNet从其不同模态的噪声版本重建输入。这种联合训练方法使USLNet不仅在文本和视频中表现出强大的单模态生成能力,而且还获得了跨模态映射能力。

L o v e r r a l l = α 1 L t e x t + α 2 L c o d e b o o k + α 3 L v i d e o + α 4 L T 2 V 2 T + α 5 L V 2 T 2 V (13) \mathrm{\mathcal{L}_{overrall}=\alpha_1 \mathcal{L}_{text}+\alpha_2\mathcal{L}_{codebook} + \alpha_3\mathcal{L}_{video} + \alpha_4\mathcal{L}_{T2V2T} + \alpha_5\mathcal{L}_{V2T2V}} \tag{13} Loverrall=α1Ltext+α2Lcodebook+α3Lvideo+α4LT2V2T+α5LV2T2V(13)

3 Experiment

Dataset
我们使用两个不同的大规模手语翻译数据集对我们的方法进行了全面的评估。BBC-Oxford British Sign Language Dataset (BOBSL) (Albanie et al., 2021)是现存最大的英国手语(BSL)视频集。它分别包括训练集、开发集和测试集中的1004k、20K和168K样本。词汇表大小为78K,测试集中的词汇表外out-of-vocabulary(OOV)大小为4.8K。我们使用的第二个数据集是OpenASL (Shi et al., 2022),这是一个从各种在线视频平台收集的扩展的American Sign Language(ASL)-English数据集。OpenASL拥有令人印象深刻的288小时的跨多个域的ASL视频集合,拥有超过200个签名者。

Metric
USLNet的评价包括手语翻译(SLT)和手语生成(SLG)。对于SLT任务,我们采用BLEU (Papineni et al., 2002)作为手语翻译的评价指标。对于SLG,我们遵循UNMT (Lample等人)利用反向翻译BLEU来评估性能。具体来说,我们将生成的手语视频进行反向翻译,并使用输入文本作为参考来计算BLEU分数。此外,“我们采用Frechet视频距离(FVD) (Unterthiner et al., 2019)分数来评估生成视频的质量。

Model
USLNet采用MASS (Song et al., 2019)架构作为文本模型主干,VideoGPT(Yan et al., 2021)架构作为视频模型主干。对于文本模型,我们将编码器和解码器层设置为6,隐藏维度设置为1024。对于视频模型,我们构建了8层6头的VideoGPT,隐藏维数为576。对于码本(codebook),我们设置了2048个code,其中每个code代表一个256维的特征张量。训练过程包括两个阶段: 预训练和无监督训练。首先,我们使用预训练的MASS模型(Song et al., 2019)对数据集的文本部分进行持续预训练。然后,我们在数据集的手语视频组件上训练VideoGPT模型(Yan et al., 2021)。最后,我们利用预训练的MASS和VideoGPT模型初始化USLNet并进行无监督联合训练,如第2.4节所述。我们以1e-3的学习率训练整个网络。此外,我们在求值过程中使用贪婪解码。

4 Results and Discussion

4.1 Main Result

手语翻译
在表1中,我们在BOBSL和OpenASL数据集上对我们的方法和最先进的SLT方法进行了比较分析。

在这里插入图片描述表1:BLEU在BOBSL和OpenASL测试集上的手语翻译性能。B@1和分别表示BLEU-1和BLEU-4。S表示监督设置;U+S首先表示无监督训练,然后是监督微调。

对于基于无监督的方法,考虑到USLNet是第一个无监督的SLT方法,BOBSL和openasl没有完整的句子级注释数据集(Albanie et al., 2021;Shi et al., 2022;Lin et al., 2023), USLNet w/o,联合训练被用来作为无监督基线。我们在BOBSL测试集上观察到大约0.1 BLEU4的改进,在OpenASL数据集上观察到大约1.2 BLEU4的改进。更多的定性结果和分析见附录A.1。

为了确保对USLNet有效性的公平评估,我们还提供了USLNet (S)和USLNet (U+S)的结果,USLNet在监督设置中代表USLNet, USLNet在监督微调之后进行无监督训练。我们比较了USLNet在监督设置中的性能与以前最先进的方法。值得注意的是,我们观察到USLNet在BOBSL数据集上获得了新的最先进(SOTA)性能,同时在OpenASL数据集上也展示了具有竞争力的结果。重要的是,USLNet (U+S)在BOBSL和OpenASL数据集中都优于USLNet和USLNet (S),强调了无监督训练在增强SLT系统表示方面的有效性。

手语生成
由于目前还没有在BOBSL数据集上生成手语的结果,我们比较了USLNet中无监督联合训练的使用。如表2所示,USLNet的无监督联合训练在反翻译BLEU和FVD分数方面取得了进步,证明了USLNet的有效性。更多的定性结果见附录A.6。

在这里插入图片描述表2:在BOBSL和OpenASL数据集上,基于BLEU和Frechet Video Distance (FVD)的手语生成性能。B@1和分别表示BLEU-1和BLEU-4。USLNet- P是比较基线,代表USLNet w/o联合训练。USLNet代表USLNet w. 联合训练。

4.2 Analysis

在本节中,我们的目标是更深入地了解USLNet所实现的改进。为了实现这一点,我们从两个角度评估了所提出的新型滑动窗口对齐器的有效性:规则一致性和滑动块比较。

顺序的检验
视频和注解是单调对齐的。我们假设视频和文本大致对齐。为了验证这一点,我们必须首先获得最佳手语规则。由于OpenASL在训练集中没有gloss annotation (Shi et al., 2022),所以我们只在BOBSL中进行验证。此外,BOBSL没有人工评估的句子级注释,我们使用了(Momeni et al., 2022)中发布的自动注释。此注释由单词级注释组成,呈现为[视频名称,全局时间,注释,来源,置信度]。我们将它们转换为句子级注释,并评估注释(符号)和文本顺序之间的一致性。从表3中,我们可以看到视频和文本在BOBSL数据集中大致对齐的假设。

在这里插入图片描述表3:BOBSL的手语(注释)和文本顺序一致性的验证。

不同的对齐网络
为了进一步探索所提出的滑动窗口对齐器(软连接)的优点,我们设计了两个比较对齐器网络,仅改变长度映射器组件 M L \mathrm{M^L} ML。第一个网络是池化,其中文本序列被填充到固定长度,线性网络将其映射到视频序列长度。第二种网络是具有硬连接的滑动窗口对准器,也利用滑动窗口机构。然而,只有当令牌在当前窗口时,公式(9)中的 α i \alpha_i αi才不为零,这表明它只从当前窗口的令牌中传递信息。如表4所示,我们的方法实现了最佳性能。此外,SLG的不同对准网络可以在附录A.2中看到。
在这里插入图片描述

表4: 不同跨模态映射器在BOBSL上的USLNet手语翻译结果。B@1和分别表示BLEU-1和BLEU-4。

BOBSL与WMT的比较
USLNet在BOBSL数据集上的性能不足,类似于在WMT SLT任务数据集上观察到的性能,其中最先进的结果显示低性能,BLEU-4得分为0.56 (Müller et al., 2022b)。我们的调查显示,BOBSL数据集呈现出与WMT数据集类似的困难。值得注意的是,与WMT数据集的22,000个单词相比,BOBSL数据集拥有72,000个单词的大得多的词汇表。

4.3 Ablation Study

我们在BOBSL数据集上进行消融研究,评估SLT 在开发集上的BLEU-1得分。

调整数据分布
以无监督的方式将非并行视频和文本数据转换为并行视频和文本数据,已被证明可以显著提高SLT (+5.60 BLEU-1分数)。

探索不同的冻结策略
受(Zhang et al.)的启发,我们通过评估各种冻结策略对SLT性能的影响来比较它们。实验结果表明,冻结视频编码器可以提高SLT效果(+2.10 blue-1分数)。

5 Relaeted Work

手语翻译
语言翻译包括将手语视频翻译成文本(Camgoz et al., 2018)。以前的SLT方法可以分为两组:一组侧重于增强视觉编码器表示(Yin等人,2021;周等,2021b;《阴与读》,2020;Kan等人,2022),以及那些旨在提高文本解码器质量的人(Camgoz等人,2020;Chen et al., 2022;Ye et al., 2023;Angelova et al., 2002;He et al., 2022a, 2023;叶等人,2022;Zhou et al., 2021a)。对于像BOBSL和openASL这样的大规模SLT数据集,Albanie等人(2021)使用了标准的变压器模型,而Sincan等人(2023)提出了一种基于上下文的方法来提高质量。此外,Shi等人(2022)结合了预训练和局部特征建模来捕获手语特征。据我们所知,我们的工作代表了SLT领域中对无监督方法的首次探索。

手语生成
手语生成专注于生成高可靠的手语视频(Bragg等人,2019;Cox et al., 2002)。以前的研究主要依赖于高质量的平行手语视频和文本语料库(Glauert et al., 2006;Cox et al., 2002;Inan et al., 2022)。在我们的工作中,我们的目标是探索一种无监督的方法(Lample等人;Artetxe等人,2018;他等人,2022b)利用未标记的数据来训练第一个SLG模型。

6 Conclusion

在本文中,我们提出了一个无监督的手语翻译和生成网络USLNet。USLNet是第一个以无监督方式训练的双向(翻译/生成)手语方法。在BOBSL和OpenASL等大型符号数据集上的实验结果表明,USLNet与监督方法相比取得了具有竞争力的性能。

7 Limitations

我们用于无监督手语翻译和生成的USLNet有以下限制:

  • 在手语翻译和生成方面的表现: 作为无监督手语翻译和生成(SLTG)模型的先驱,我们承认USLNet的表现并非完美无瑕,需要进一步发展,特别是在大规模手语领域。我们认识到为增强USLNet在这一领域的能力所需要的持续突破的重要性。
  • 模型结构: USLNet的设计目标是探索一个既能翻译手语又能生成手语的统一模型。为了实现这一点,USLNet采用了双塔模型,包括用于文本和视频处理的单独组件。此外,为了将视频视为序列,我们引入了视频量化模型。这些因素导致了USLNet模型的复杂性,这就需要大量的培训资源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值