【20000426】文献翻译6：用于对话手势合成的大规模语义和情感多模态数据集

Yang SiCheng

已于 2023-07-02 16:11:37 修改

阅读量782

点赞数

分类专栏：小白学习文章标签： python 深度学习人工智能自然语言处理 big data

于 2022-04-26 20:33:19 首次发布

本文链接：https://blog.youkuaiyun.com/qq_41897800/article/details/124419559

版权

小白学习专栏收录该内容

25 篇文章

订阅专栏

摘要：

lack of available datasets, models and standard evaluation metrics
Body-Expression-Audio-Text dataset, BEAT
- 76 hours, 30 speakers, 8 different emotions and 4 different languages
- 3200万帧级别情感和语义相关的注释
在BEAT上统计除了分析了手势生成与音频、文本、说话人身份的相关性，还有与面部表情、情感和语义之间的相关性
Baseline：Cascaded Motion Network (CaMN)
评估多样性：Semantic Relevance Gesture Recall (SRGR)
BEAT是最大的用于研究人类手势的运动捕捉数据集（可用于手势生成、多模态分析、情感手势识别）

Fig.1. Motion capture (sometimes referred as mo-cap or mocap, for short)

1 简介

对话手势生成可用于动画、娱乐、教育、虚拟现实，有一些单模态的模型，现在手势生成任然是一个挑战的原因：

数据集的规模和质量（Table 1. ）
丰富和成对的多模态数据（例如面部的表情在手势生成中常常被忽略）
解耦说话人风格（只有一两个说话人或者不同的说话人在说的主题不一样），因为缺少相关数据，说话人的风格没有明确的研究
情感标注
语义相关性，这会生成上下文相关的有意义的手势
总结：缺少包含语义、情感标注的大规模、高质量、多模态的数据集

Table 1.

有两种方法收集无标签的数据：

伪标签（3D姿态估计算法，低成本、半自动化，如97h）
动捕（在预定义的场景或文本下记录动作，更高的成本和更多人工作业，如4h）

动捕更好，例如可以让一个说话人用8个情绪，或者让30个说话人说一样的语句；同时，动捕数据是评估伪标签不可缺少

由10位注释者对总共3千万帧进行注释后平均，超过2500个主题分类的序列，掌握不同语言的演讲者以不同的时间和成对的方式提供其他三种语言的数据。不同的演员/女演员，不同的音调，不同的语言都是精心设计的，以涵盖自然语言的特点。对于情绪化的手势，在录制过程中由专业的指导老师对演讲者的表情进行反馈，并在没有表情的手势时重新录制，以确保整个数据集的表现力和质量。

层级的解码器和编码器来增强语音和面部的模态

Semantic-Relevant Gesture Recall (SRGR)，基于与真实数据的语义分数的关键点概率(Probability of Correct Keypoint, PCK)进行加权

贡献：

BEAT，第一个关于语义和情绪的手势数据集，考虑时间和可以利用的模态的最大的动捕数据集
CaMN，考虑包含面部混杂物权重(facial blendweight)的六种模态
SRGR

2 相关工作

对话性手势数据集。我们首先回顾一下mo-cap和伪标签的对话手势数据集。Volkova等人[49]建立了一个89分钟带有文本注释的mo-cap情感手势数据集，Takeuchi等人[47]对两个日本人进行了一个类似采访的音频手势数据集，3.5小时。Ferstl和Mcdonnell[18]收集了一个4小时的数据集，Trinity，一个男性说话者，虽然讨论的是爱好等，但这是最常用于对话手势合成的mo-cap数据集。另一方面，Ginosar等人[21]使用OpenPose[12]从YouTube视频中提取2D姿势作为144小时的训练数据，称为S2G数据集。Habibie等人[22]将其扩展到带有面部landmarks的全3D身体，最后的可用数据是33小时。同样，Yoon等人[54]使用VideoPose3D[41]在TED数据集的基础上，上半身的9个关节，97小时。mo-cap的有限数据量和真实数据中的噪声使得训练后的网络泛化能力和质量受到影响。与我们的工作类似，有几个数据集被用来生成说话的脸，这些数据集可以分为三维扫描脸，例如VOCA[48]和MeshTalk[44]或RGB图像[4,11,15,27,51]。然而，这些数据集不能被用来合成人类的手势。

语义或情感意识的运动合成。动作的语义分析已经在动作识别和手语分析/合成研究领域得到了研究。例如，在一些动作识别数据集中[26,29,13,14,45,9,35,46,42,50]，使用了一个动作的对应标签的剪辑，例如，跑步，走路[43]。另一个例子是音频驱动的手语合成[28]，其中手势有特定的语义。然而，这些数据集并不适用于对话手势合成，因为自然对话中使用的手势比单个动作更复杂，其语义也与手语语义不同。最近，Bhattacharya[7]从文本中提取了情感线索并将其用于手势合成。然而，所提出的方法在情感分类算法的准确性和数据集中情感类别的多样性方面有局限性。

条件性对话手势合成。早期的基线模型是以文本条件手势[55]、音频条件手势[21,47,18]和音频-文本条件手势[54]等数据集发布的。这些基线模型是基于CNN、LSTM的端到端建模。有几项工作试图通过输入/输出表征选择[31,20]、对抗性训练[19]和各种类型的生成性建模技术[52,37,53,1]来提高基线模型的性能，这可以概括为 “根据给定条件估计更好的手势分布”。作为一个例子，StyleGestures[2]使用 Flow-based的模型[24]和额外的控制信号，从分布中取样手势。概率性手势生成能够根据噪声生成不同的手势，它们由CGAN[53]、WGAN[52]实现。然而，由于缺乏成对的多模态数据，仍然缺少对其他模态的分析，例如面部表情，以进行手势合成。

3 BEAT: Body-Expression-Audio-Text Dataset

在这一节中，我们介绍了提议的身体-表情-音频-文本（BEAT）数据集。首先，我们描述了数据集的获取过程，然后介绍了文本、情绪和语义相关信息的注释。最后，我们使用BEAT来分析对话手势和情绪之间的相关性，并展示语义相关性的分布。

3.1 数据获取

Fig.2. Capture System and Subject Distribution of BEAT.

动捕系统：Fig. 2a，16个同步摄像头，120 Hz，Vicon’s suits with 77 markers；facial capture，ARKit，iPhone 12 Pro，60HZ，52个混合形状的权重，blendshape targets are designed based on Facial Action Coding System (FACS)，音频48kHz立体声

设计标准：BEAT分为对话(conversation, 10-min)和自我对话(self-talk, 1min)环节，对话是演讲者和教员之间的远程对话，即确保只有演讲者的声音被记录。Fig. 2b，在录音过程中，我们对每个类别的持续时间进行了计时。主题从20个预定义的主题中选择，分别涵盖33%和67%的辩论和描述主题。Conversation任务将记录中立的对话，并确保数据集的多样性。self-talk任务包含120个1-min的自言自语的录音，这里演讲者回答有关日常对话主题的问题，例如个人经历或爱好。答案由三位英语母语人士撰写和校对，语音覆盖率被控制在与常用的3000个单词相似[25]。在参考[36]的数据集中，我们涵盖了8种情绪，中性、愤怒、快乐、恐惧、厌恶、悲伤、蔑视和惊讶，每种情绪的比例见Fig. 2c。在120个问题中，有64个是针对中性情绪的，其余7种情绪各有8个问题。不同的演讲者被要求用他们的个性化手势谈论相同的内容。关于预定义答案、发音分布的细节可在补充材料中找到。

发言人选择和语言比例：我们严格控制语言以及口音的比例，以确保数据集的泛化能力。如Fig. 2d所示，该数据集主要由英语数据组成。60小时（81%），12小时的中文，2小时的西班牙语和日语。西班牙文和日文也是以前的mo-cap数据集[18]的50%大小。英语部分包括10个以英语为母语的人的34小时，包括美国、英国和澳大利亚，以及来自其他七个国家的20个流利的英语使用者的26小时。如Fig. 2e所示，来自不同种族的30位发言者（包括15位女性）可以根据他们的总录音时间分为4小时（10位发言者）和1小时（20位发言者）两种，其中1小时的数据被建议用于few-shot学习实验。建议查看补充材料，了解发言者的详细情况。

录音：演讲者被要求在自言自语部分熟练地阅读答案。然而，他们并没有被指导进行特定风格的手势，而是被鼓励展示自然的、个人的、日常风格的对话手势。说话者在用特定的情绪说话之前，会观看2-10分钟与不同情绪相对应的情绪刺激视频，他们会在专业说话者的指导下正确地引出相应的情绪。我们重新记录任何不合格的数据，以确保数据的正确性和质量。在谈话过程中，指导员会引导说话者描述不同情绪的体验。

3.2 数据标注

文本对齐：我们使用内部构建的自动语音识别器（ASR）来获得对话环节的初始文本，并由注释者进行校对。然后，我们采用Montreal Forced Aligner（MFA）对准器[38]，对文本和音频进行时间上的对准。

情感和语义的相关性：自言自语的8类情感标签已经被确认，并且其正确性已经被现场监督所保证。对于对话环节，注释者会观看带有相应音频和手势的视频来进行帧级注释。对于语义相关性，由于语义是主观的，我们将10位注释者的binary分数平均作为最终的语义分数。我们从Amazon Mechanical Turk（AMT）分配了600名注释者。这些注释者被要求注释少量的测试数据作为资格检查，其中只有118名注释者在最终数据注释的资格阶段获得成功。在这项任务中，我们为每个注释者支付了每小时12美元的报酬。数据被提前设定为10次，同一注释者不能对同一数据进行两次注释。

3.3 数据分析

BEAT的收集和注释使得分析对话手势和其他模式之间的相关性成为可能。而手势和音频、文本和说话人身份之间的联系已经被广泛研究。我们进一步讨论了手势与面部表情、情绪和语义之间的关联。

面部表情和情感：面部表情和情绪是紧密相关的（不包括一些唇部动作），对对话手势和情绪类别之间的相关性的分析使得手势与情绪标签和面部表情的相关性同时得到了验证。如Fig. 3a所示，我们在T-SNE中基于2s-旋转表示法将手势可视化，结果显示手势在不同的情绪中具有不同的特征。例如，如Fig. 3b所示，说话人2在生气和高兴时有不同的手势风格，例如，生气时手势更大更快。T-SNE的结果也显示了快乐（蓝色）和愤怒（黄色）之间的显著差异。然而，不同情绪的手势仍然不能通过旋转表示完美地分开。此外，不同情绪的手势在每个区域似乎是混在一起的，这也与主观感受一致。总的来说，对话的手势被发现与情绪和面部表情有关。

Fig.3.

语义相关性的分布：手势和文本之间的语义相关性存在很大的随机性，如Fig. 4所示，当说出相同的文本内容时，不同说话人的语义相关手势的频率、位置和内容都不同。为了更好地理解手势的语义相关性分布，我们根据4个小时的两个说话人的数据进行了语义相关性研究。如图4（b）所示，就整体数据而言，83%的手势的语义得分较低（≤0.2）。对于单词层面，不同的单词之间的语义分布是不同的，例如，i和was的语义得分相似，但得分分布却不同。此外，图4（c）显示了文本语料库中9个高频词的平均语义得分。需要提到的是，Be-verbs显示的分数相对低于Promonouns和Prepositions，后者分别显示为蓝色和黄色。最终，它分别对语义相关的手势呈现出不同的概率分布。

Fig.4. © 高频词的语义相关性，按其词性以不同颜色分组 (d, e) 语义相关度的不同分布发生在单词i和was中，甚至共享几乎相同的语义相关度水平。

4 多模态条件性手势合成基线

在这一节中，我们提出了一个基线，输入所有的模式来生成生动的、类似人类的对话手势。所提出的基线，级联运动网络（CaMN），如Fig. 5所示，它对文本、情感状况、说话人身份、音频和面部混合形状的权重进行编码，以多级的级联结构来合成身体和手的手势。语义相关性被作为损失权重，使网络产生更多的语义相关性手势。文本、音频和说话人身份编码器的网络选择参考了[54]，并为更好的性能进行了定制。所有的输入数据都具有与输出手势相同的时间分辨率，这样，合成的手势就可以通过顺序模型逐帧处理。手势和面部混合形状的权重被降频到30FPS，单词句子被插入填充标记以对应音频中的沉默时间。

Fig.5.

文本编码器：首先，通过FastText[10]中的预训练模型将单词转换成单词嵌入集vT∈R300，以减少维度。然后，通过定制的编码器ET对单词集进行微调，ET是一个8层的时间卷积网络（TCN）[6]，带有跳过连接[23]，如

$z_{i}^{\mathrm{T}}=E_{\mathrm{T}}\left(v_{i-f}^{\mathrm{T}}, \ldots, v_{i+f}^{\mathrm{T}}\right)$

对于每一帧i，TCN融合2f=64帧的信息，生成最终的文本潜在特征，该特征集被注为zT∈R128。

演讲者身份和情感编码器：演讲者ID和情感的初始表示都是one-hot向量，如vID∈R30和vE∈R8。按照[54]的建议，我们使用嵌入层作为说话人ID编码器，即 $E_{ID}$ 。另一方面，我们使用4层TCN和嵌入层的组合作为情感编码器， $E_E$ ，来提取时间上的情感变化。

$z_{i}^{\mathrm{ID}}=E_{\mathrm{ID}}\left(v_{i}^{\mathrm{ID}}\right), z_{i}^{\mathrm{E}}=E_{\mathrm{E}}\left(v_{i-f}^{\mathrm{E}}, \ldots, v_{i+f}^{\mathrm{E}}\right)$

其中， $z^{ID}$ ∈R8和 $z^E$ ∈R8分别是说话人ID和情绪的潜在特征。

音频编码器：我们把音频的表现形式改为24kHZ，考虑到音频为30FPS，每一帧我们有vA∈R8000。我们将音频与文本、说话人身份和情感特征一起送入音频编码器EA，以学习更好的音频特征。如

$z_{i}^{\mathrm{A}}=E_{\mathrm{A}}\left(v_{i-f}^{\mathrm{A}}, \ldots, v_{i+f}^{\mathrm{E}} ; v_{i}^{\mathrm{T}} ; v_{i}^{\mathrm{E}} ; v_{i}^{\mathrm{ID}}\right)$

$E_A$ 由12层带跳过连接的TCN和2层MLP组成，其他修改的特征与第12层音频特征相连接，因此最后的MLP层用于音频特征的细化，最终的潜空间音频特征为zA∈R128。

面部表情编码器：我们将vF∈R52作为面部表情的初始表示。采用基于8层TCN和2层MLP的编码器EF来提取面部潜在特征zF∈R32，即

$z_{i}^{\mathrm{F}}=E_{\mathrm{F}}\left(v_{i-f}^{\mathrm{F}}, \ldots, v_{i+f}^{\mathrm{F}} ; v_{i}^{\mathrm{T}} ; v_{i}^{\mathrm{E}} ; v_{i}^{\mathrm{ID}} ; v_{i}^{\mathrm{A}}\right)$

在第8层对特征进行串联，MLP是用于细化的

身体和手部解码器：我们以分离的级联结构实现身体和手的解码器。这是基于[40]的结论，即身体手势可以用来估计手的手势。这两个解码器，DB和DF是基于LSTM结构的潜在特征提取和2层MLP的手势重建。它们会将五种模式的特征与之前的手势，即种子姿势结合起来，合成潜伏的手势特征zB∈R256和zH∈R256。最终估计的身体ˆvB∈R27×3和手掌ˆvH∈R48×3的计算结果为

$\begin{gathered} z_{i}^{\mathrm{M}}=z_{i}^{\mathrm{T}} \otimes z_{i}^{\mathrm{ID}} \otimes z_{i}^{\mathrm{E}} \otimes z_{i}^{\mathrm{A}} \otimes z_{i}^{\mathrm{F}} \otimes v_{i}^{\mathrm{B}} \otimes v_{i}^{\mathrm{H}} \\ \mathbf{z}^{\mathrm{B}}=D_{\mathrm{B}}\left(z_{0}^{\mathrm{M}}, \ldots, z_{n}^{\mathrm{M}}\right), \mathbf{z}^{\mathrm{H}}=D_{\mathrm{H}}\left(z_{0}^{\mathrm{M}}, \ldots, z_{n}^{\mathrm{M}} ; \mathbf{z}^{\mathrm{B}}\right), \\ \hat{\mathbf{v}}^{\mathrm{B}}=M L P_{\mathrm{B}}\left(\mathbf{z}^{\mathrm{B}}\right), \hat{\mathbf{v}}^{\mathrm{H}}=M L P_{\mathrm{H}}\left(\mathbf{z}^{\mathrm{H}}\right), \end{gathered}$

zM∈R549是所有模式的合并特征。对于公式5，种子姿势的长度为8帧。

损失函数：网络的最终监督是基于手势重建和对抗性损失

$\begin{gathered} \mathcal{L}_{\text {Gesture Rec. }}=\mathbb{E}\left[\left\|\mathbf{v}^{B}-\hat{\mathbf{v}}^{B}\right\|_{1}\right]+\alpha \mathbb{E}\left[\left\|\mathbf{v}^{H}-\hat{\mathbf{v}}^{H}\right\|_{1}\right] \\ \mathcal{L}_{\text {Adv. }}=-\mathbb{E}\left[\log \left(\operatorname{Dis}\left(\hat{\mathbf{v}}^{B} ; \hat{\mathbf{v}}^{H}\right)\right)\right] \end{gathered}$

其中，对抗性训练的判别器输入只有手势本身。我们还采用一个权重α来平衡身体和手的惩罚。之后，在训练过程中，我们使用语义相关性标签λ调整L1损失和对抗性损失的权重，最终的损失函数为

$\mathcal{L}=\lambda \beta_{0} \mathcal{L}_{\text {Gesture Rec. }}+\beta_{1} \mathcal{L}_{\text {Adv }}$

其中β0和β1是预定义的L1和对抗性损失的权重。当语义相关度较高时，我们鼓励网络尽可能地生成与地面真相在空间上相似的手势，从而加强L1惩罚，减少对抗性惩罚。我们根据经验将α、β0和β1分别设定为0.02、100和20。

5 手势多样性的衡量标准

我们提出了语义相关手势召回（Semantic-Relevant Gesture Recall，SRGR）来评估手势的多样性，这也可以解释为手势是否生动和多样。我们利用语义分数作为生成的手势和真实手势之间正确关键点概率（PCK）的权重。其中PCK是指在指定的阈值δ下被成功调用的关节数。SRGR指标可以计算如下

$D_{S R G R}=\lambda \sum \frac{1}{T \times J} \sum_{t=1}^{T} \sum_{j=1}^{J} \mathbf{1}\left[\left\|p_{t}^{j}-\hat{p}_{t}^{j}\right\|_{2}<\delta\right]$

其中1是指标函数，T,J是帧的集合和关节的数量。我们认为SRGR强调在感兴趣的片段中回忆手势，比L1距离的等权和（L1 Diversity）更符合人类对手势多样性的主观感受[33]。

6 实验

在本节中，我们首先评估了SRGR指标的有效性，然后基于主观实验证明了我们的数据集的数据质量。接下来，我们用主观和客观实验证明我们的基线模型的有效性，最后，我们根据消融实验讨论每种模式的贡献。

6.1 SRGR的有效性

为了评估SRGR的有效性，我们进行了一项用户研究。首先，我们将有渲染结果的运动序列随机地修剪成40秒左右的片段。对于每个片段，参与者被要求根据其多样性来评估手势，即非重复手势的数量。此外，参与者还需要对其吸引力进行打分，这应该是基于动作本身而不是讲话的内容。共有160名参与者参加了评价研究，每个人评价15个随机的手势片段。这两个问题都采用了5分的李克特量表，使我们能够分别计算出用户对手势多样性和吸引力的主观评分。实验结果Fig. 6 (left) 所示，这意味着手势的吸引力和它的多样性之间存在着很强的相关性。更重要的是，Fig. 6 (right) 显示，在评价手势的多样性时，SRGR比L1距离的等权和更接近人类的感知。

Fig.6.

6.2 数据质量

为了评估捕获的地面真实运动数据的质量，我们将我们提出的数据集与广泛使用的mo-cap数据集Trinity[18]进行比较。我们在比较从地面实况采样的片段的基础上进行用户研究，并通过在每个数据集中训练的运动合成网络产生结果。对于Trinity数据集，共有23个序列，每个序列10分钟。我们将数据随机分为19:2:2，用于训练/验证/测试，因为没有分割的标准。对于我们的数据集，我们只使用英语部分进行训练，并将数据随机分为50:5:5。

我们使用S2G[21]，以及SoTA算法audio2gestures[33]，以涵盖GAN和VAE模型。S2G模型的输出层被调整为输出三维坐标（模型训练的细节见补充材料）。在消融研究中，最终生成的三维骨架结果被渲染并与音频合成，以便在用户研究中进行比较。共有120名受试者比较了从Trinity和我们的数据集中随机抽样的剪辑，长度为5-20秒。参与者被要求评估手势的正确性，即物理正确性、多样性和手势-音频同步性。而对于手势的正确性测试，身体和手是分开评估的。结果如Table 2. 所示，这表明我们的数据集在各方面都得到了更高的用户偏好。特别是在手部动作方面，我们比Trinity数据集的表现要好得多。这可能是由于过去的运动捕捉设备的噪音和手上缺乏标记。

Table 2.

6.3 对基线模型的评价

训练设置。我们使用Adam优化器[30]以2e-4的学习率进行训练，整个数据集在1*V100的环境下训练了15小时。对于评估指标，L1已经被证明不适合评估手势性能[33,54]，因此我们采用FGD[54]来评估生成的手势的分布是否与地面真实有距离。它计算由预训练网络提取的潜在特征之间的距离，我们使用一个基于LSTM的自动编码器作为预训练网络。此外，我们采用SRGR和BeatAlign作为多样性和同步性的评价。BeatAlign[34]是一个音频和手势节拍之间的Chamfer距离，用于评估手势-音频节拍的相似性。

定量结果。最终结果显示在Tab. 3中。除了S2G和A2G，我们还将我们的结果与文本到手势和音频&测试到手势算法、Seq2Seq[55]和MultiContext[54]进行比较。结果表明，我们的端到端模型和级联模型在所有指标上都能为SoTA提供性能。我们的模型的可视化结果显示在Fig . 7a，显示了CaMN可以生成语义相关的手势。

Table 3.
Fig.7.

6.4 消融实验

我们进行了一项消融研究来讨论级联连接和每一种模式的有效性。对于级联连接，与端到端方法相比，我们的方法能够取得更好的性能，因为我们引入了预先的人类知识来帮助网络提取不同模态的特征。对于多模态数据，我们在实验过程中逐渐删除了一种模态的数据。完整的实验结果显示在Tab. 4

Table 4.

移除音频后，同步性会大大降低，这是直观的。然而，它仍然保持了一些同步性，因为文字的填充和时间对齐注释以及面部表情的唇部运动，这一点在去除面部和文字数据后得到了证明。相比之下，消除语义加权损失可以提高同步性，这意味着语义手势通常不会与音频完美地强烈对齐。情感和同步性之间也有关系，但说话人身份对同步性的影响很小。去除音频、情感和面部表情，对语义相关的手势记忆没有明显的影响，这主要取决于文本和说话者ID。

每种模式的数据都有助于提高FGD，这意味着使用不同模式的数据可以增强网络的映射能力。音频和面部表情的统一，尤其是面部表情，大大改善了FGD。我们发现，去除情感和说话人的身份也会影响到脱硫指数的得分。这是因为综合网络的使用增加了特征的多样性，从而导致了结果的多样性，增加了分布的方差，使其更像原始数据。

6.5 可控性

我们可以通过改变情绪标签和面部表情的输入来实现同一句子的情绪转移，我们在 Fig. 7 (right) 中展示了一系列的主观结果进行演示。如图所示，当手势从自然转移到恐惧时，呈现出不同的手势风格，例如，手在头部周围移动。

7 局限性和结论

目前的研究还有改进的余地，现在的SRGR是基于语义注释来计算的，这对无标签的数据集有一定的限制。为了解决这个问题，训练一个评分网络或语义判别器是可能的方向。作为结论，在本文中，我们建立了一个大规模的、高质量的、多模态的、有语义和情感注释的数据集，以生成更像人类的、有语义和情感相关的对话手势。与该数据集一起，我们提出了一个基于级联的基线模型，用于基于六种模式的手势合成，并对SoTA的性能进行评估。我们的数据集和相关的统计学实验可以使许多不同的研究领域受益，包括未来的可控手势合成、跨模态分析和情感动作识别。

附录A 注释界面和赞同度的测量

我们的注释界面，如Fig. 8a所示，是由VGG图像注释器（VIA）[17]的修改版[43]改编而成。我们使用相同的界面对情感和语义进行注释。然而，每个任务的注释是由不同的注释者组来完成的。对于情感注释，两个注释者对对话会话的每个视频片段的开始和结束时间进行注释。对于语义注释，十位注释者中的每一位都为每个视频片段提供二进制注释，因为正如主论文中提到的，对语义的感知是比较主观的。注释者会：i）根据他们的感知，同意或不同意当前手势是否与文本内容有语义关系；ii）如果同意，他们会注释当前手势的开始和结束时间；iii）然后，从用逗号分隔的关键词列表中选择他们认为该手势完全对应的关键词。

Fig. 8.

我们的后处理算法将输入分离的关键词、文本对齐和手势段层面的语义注释来生成帧层面的注释。如Fig. 8b所示，每一帧的最终语义相关性被计算为手势段语义得分和关键词语义得分的乘法。值得一提的是，两个层次的语义注释也可以分别采用。

我们通过测量情感和语义标注的评分者间的可靠性来计算标注的评分者间的一致率。对于情感注释，我们在Tab. 5中列出分数。只有两个注释者给出了相同的标签，才标志着一致。大约1,600万帧的最终一致性为96%，这已经足够高了，所以我们没有用两个以上的注释者进行情感注释。对于语义注释，测量者之间的可靠性显示在Tab. 6，例如，我们将0.1分的一致性标记为0.9，因为9位注释者有相同的结论。在不计算分数=0.0部分的情况下，最终的平均一致性为0.83，这足以表明我们的注释的有效性[39]。

Table 5.

Table 6.

附录B 文本内容和说话人信息的细节

BEAT数据集的元音和辅音分布如Fig .9所示，这与经常使用的3000个单词基本一致[25]。对于对话环节，问题从Tab. 7中选择。辩论和介绍分别有十个话题，与日常对话话题有关。对于自言自语环节，包括120个答案的完整答案列表附在本补充材料的最后，其中包括由母语人士校对的30个答案的四种语言翻译。

Fig.9.

Table 7.

抱着研究说话者之间风格差异的动机，我们收集了来自不同国家、性别、年龄和种族的说话者的数据，然后通过对风格的明确控制来模拟这些差异。在数据收集过程中，我们确保了演员的风格是一致的。我们过滤掉了大约21个小时的数据和6个演讲者，原因是他们的风格不一致，即演员在自言自语和对话环节中呈现出明显不同的手势。例如，一些演讲者在对话环节中打了很多手势，但在自言自语环节中几乎没有表现出任何手势。有效发言人的总数为30人，相应的记录数据时间为76小时。发言人的信息和他们的录音时间可在Tab. 8中找到。我们有34小时和26小时的录音，分别来自英语为母语的人和流利的人，母语/流利的人持续时间的比例为1.307。

附录C 数据发布格式的细节

我们最终发布的数据文件格式如下： i) 身体和手势的BVH文件格式的动作捕捉数据； ii) 立体声WAV文件格式的音频记录； iii) JSON文件格式的面部表情混合形状权重； iv) FBX文件格式的面部网格数据； v) TextGrid文件格式的文本-音频对齐注释数据； vi) 文本文件格式的语义和情绪注释。

对于身体和手势，标记物的位置如Fig. 10所示（图像来自，关节名称分别显示在Fig. 11中。我们使用欧拉角的旋转信息作为运动表示，即75×3旋转+1×3根平移。

Fig.10.

Fig.11.

Fig.12.

如Fig. 13所示，面部表情是用基于面部动作编码风格（FACs）的混合形状来表示的，考虑到人类的面部解剖结构，每个表情每次只激活面部的一个部分（如嘴巴部位、眼睛、眉毛）。

Fig.13.

所有用于演示的头像都是由Blender工具建立的，名为HumanGeneratorv3。我们为每个演讲者创建了头像并建立了面部动画解算器。由专业动画师建立的解算器可以帮助修复原始面部动画数据中的伪影。此外，我们还对身体骨骼动画进行了运动重定向处理。感谢HumanGenerator团队给予的例外许可，这些面部网格数据将被一起发布，以更好地可视化面部数据记录，作为BEAT数据集的一项资产。

附录D 对SRGR、FGD和BeatAlign的补充讨论

在正文中，我们证明了SRGR与[33]中的L1 Diversity相比，在多样性和吸引力方面更接近人类的感知，考虑到所有手势片段的分数分布之和。这里，我们在Fig. 14中列出了每组手势片段的详细分数分布。共有200个手势片段，包括使用Seq2Seq[55]、S2G[21]、A2G[33]、MultiContext[54]和ground truth等方法生成的结果，每个片段有40个相同的扬声器数据。其次，生成的具有强语义相关性但运动范围较小的结果，如Seq2Seq，获得的L1多样性低于A2G，后者具有较大的运动范围，但统计证据表明，人类认为Seq2Seq具有比A2G更高的多样性。一个解释是人类不仅根据运动范围来评价多样性，而且还根据其他一些隐含的特征，如运动的表现力。

Fig.14

此外，我们还研究了另外两个指标。Frechet Gesture Distance（FGD）[54] 和BeatAlign[34]。我们观察到，它们在手势合成评估方面有一些限制。FGD的计算主要取决于手势特征表示，但由于不同的关节数量和不同的分析片段的持续时间，没有通用的或定义明确的手势特征表示标准。此外，我们发现，结果中的一些合成手势序列得到了相对稳定的FGD分数，但是，这些手势序列中出现了明显的抖动。尽管这个问题可以通过与BeatAlign联合评估来解决，但它仍然建议对物理正确性进行更好的检测，或者探索一个更通用的手势特征提取网络。

BeatAlign[34]的正确性在舞蹈生成上得到了验证。因此，我们建议在对话式手势生成中验证其可行性和错误率。与舞蹈生成不同，我们提取音频的有效值作为音频节拍，而对于手势，我们采取速度的局部最小值。实验结果表明：i）对于300个手势片段的随机样本，比GT的得分高6%；ii）对于100个手势片段，以0.1秒为单位，来回平移5秒，平均精度为83%；iii）单方向评价的精度高于双向评价（71%），以及非指数评价（59%）。因此，尽管BeatAlign可以作为评估对话手势生成中音频-手势同步的指标，但仍有改进的余地。

我们还列出了L1 Div.、FGD和BeatAlign的公式供参考。L1多样性，是不同N个片段的L1距离的等权之和，如

$\text { Div } .=\frac{1}{2 N(N-1)} \sum_{t=1}^{N} \sum_{j=1}^{N}\left\|p_{t}^{i}-\hat{p}_{t}^{j}\right\|_{1}$

FGD[54]是由预训练的手势编码器计算出的FID，如

$\operatorname{FGD}(\mathbf{m}, \hat{\mathbf{m}})=\left\|\mu_{r}-\mu_{g}\right\|^{2}+\operatorname{Tr}\left(\Sigma_{r}+\Sigma_{g}-2\left(\Sigma_{r} \Sigma_{g}\right)^{1 / 2}\right)$

其中，µr和Σr是真实人类手势m的潜在特征分布zr的第一和第二时刻，µg和Σg是生成的手势ˆm的潜在特征分布zg的第一和第二时刻。 BeatAlign[34]的计算公式为

$\text { BeatAlign }=\frac{1}{G} \sum_{b_{G} \in G} \exp \left(-\frac{\min _{b_{A} \in A}\left\|b_{G}-b_{A}\right\|^{2}}{2 \sigma^{2}}\right)$

其中G,A分别是手势节拍和音频节拍的集合。 σ根据fps进行调整，我们在本文中设定为0.1。

附录E 基线训练的细节

目前，我们并没有根据说话者来分割数据集，也就是说，有些说话者只存在于验证/测试数据中，因为说话者ID是输入之一。对于每个说话人，我们使用10:1:1的比例进行训练/验证/测试数据的分割。对于基线训练，我们根据所有基线模型训练期间最低的验证FGD分数来选择最佳模型。最终选定的历时在Tab. 9中列出。

Tab. 9.

问题：

The data was set to 10 times in advance 什么意思？A：可能指10位注释者
Distribution of Semantic Annotation 怎么算出来的？A：附录A
$λβ_0$ 可以直接合并为一项？A：看错了， α 不是β，不能合并
SRGR中的δ没有赋值？
6.2 gesturescorrectness,i.e.,physicalcorrectness,diversityandgestureaudio synchrony 怎么算出来的？
There is also a relationship between emotion and synchrony, but speaker ID only has little effect on synchrony.？