“幽默”:理解幽默的多模态语言数据集
图1:UR - FUNNY数据集的实例。UR - FUNNY提出了一个研究多模态语言中幽默动态性的框架。机器学习模型给出了具有视觉和声学伴随模态的句子序列。他们的目标是检测序列是否会在打孔线后立即引发笑声。
摘要
幽默是人们在社会交往中经常表现出来的一种独特的、富有创造性的交际行为。它是以多模态的方式产生的,通过使用单词(文本),手势(视觉)和韵律线索(声学)。从这三种模态来理解幽默,属于多模态语言的范畴;自然语言处理的一个最新研究趋势是将自然语言建模为面对面交流中发生的事情。尽管幽默检测是NLP中一个已经确立的研究领域,但在多模态环境下,幽默检测仍未得到充分的研究。本文提出了一个名为UR - FUNNY的多元多模态数据集,为理解幽默表达中使用的多模态语言打开了一扇大门。该数据集及相关研究为t的多模态幽默检测提供了一个框架
1 前言
幽默是一种独特的交际技巧,它消除了会话中的障碍。研究表明,有效地使用幽默可以使说话人建立融洽的关系(施陶费尔、1999),抓住注意力(万泽等, 2010),引入一个难以理解的概念而不使听众困惑(加纳, 2005),甚至建立信任( Vartabedian和Vartabedian , 1993)。在面对面交流中,幽默涉及多模态交际渠道,包括有效使用单词(文本),伴随的手势(视觉)和韵律线索(声学)。能够将这些模态适当地混合和对齐,往往是个体所独有的,这归因于许多不同的风格。风格包括使用单词、手势和韵律线索逐步建立起一条主线,用意想不到的主线对故事进行突然的转折,创造模态之间的差异,或者仅仅用言语来激发观众的笑声
使用计算框架建模幽默具有内在的挑战性,原因包括:1 )特质性:经常幽默的人也是最具创造力的人(哈克和托马斯, 1972 )。这种创造性反过来又增加了幽默如何以多模态方式表达的动态复杂性。使用单词、手势、韵律线索和它们的(错误)对齐是创造性用户经常实验的选择。2 )语境依赖:幽默往往随着说话人事先对双关语的规划而随着时间的推移而发展。在故事中,有一个逐步建立的过程,使用了一个双关语(拉马坎德兰, 1998),突然出现了转折。当孤立地看(如图1所示)时,有些穿孔线可能看起来不滑稽。幽默源于先前的构建,多种来源的交叉引用,以及它的传递。因此,对幽默的充分理解需要分析幽默的语境。
理解不同模态之间独特的依赖关系及其对幽默的影响需要多模态语言的知识;自然语言处理领域最近的一个研究趋势( Zadeh et al , 2018b)。该领域的研究旨在从文本、视觉和听觉三种模态来解释自然语言。在本文中,除了文本的计算描述符外,还测量了手势(如微笑)或声音属性(如响度),并将其放在多模态框架中,以定义幽默识别为多模态任务。
本文对NLP社区的主要贡献是引入了第一个幽默检测的多模态语言(包括文本、视觉和听觉模态)数据集" URFUNNY "。该数据集为在多模态框架下理解和建模幽默打开了大门。本文的研究为这一任务提供了性能基准,并证明了使用所有三种模态共同进行幽默建模的影响。
表1:UR - FUNNY与NLP社区中著名的幽默检测数据集的比较。这里,’ # ‘,’ pos ‘,’ neg ‘,’ mod ‘和’ spk '分别表示数,积极,消极,情态和说话人。
2 背景
(不是很想看
3 UR-FUNNY 数据集
在这一部分中,我们介绍了UR - FUNNY数据集1。我们首先讨论了数据采集过程,然后给出了数据集的统计以及多模态特征的提取和验证。
3.1 数据采集
一个适合多模态幽默检测任务的数据集应该是多样的:a )说话人:建模幽默的特殊表达可能需要一个说话人数量较多的数据集;b )话题:不同的话题表现出不同的幽默风格,因为不同的话题之间的上下文和双关语可能完全不同。
TED演讲2是最多样化的观点分享渠道之一,包括演讲者和话题。来自不同背景、民族和文化的演讲者通过1UR - FUNNY Dataset:https://github.com/ ROC-HCI / UR-FUNNY 2Videos在www . ted . com上公开下载,广受欢迎频道3。这些演讲的主题是多样的;从科学发现到日常平凡事件。由于演讲者和话题的多样性,TED演讲跨越了广泛的幽默范围。因此,该平台为研究多模态环境下幽默的动态性提供了独特的资源。
TED视频包括人工转写和观众标记。转录是高度可靠的,这反过来又允许对齐文本和音频。这一特性使得TED演讲成为最新连续融合趋势( Chen et al . , 2017)的独特资源。转录本中还包括对观众行为进行可靠注释的标记。具体来说,"笑"标记在NLP研究中被用作幽默( Chen and Lee , 2017)的指标。先前的研究已经确定了双关语和语境在理解和建模幽默中的重要性。在一个幽默的场景中,语境是一个故事的逐步构建,而插话是对故事的突然扭曲,从而引起笑声(拉马坎德兰, 1998)。使用提供的笑声标记,标记前的句子被认为是双关语,双关语(但在先前的笑声标记之后)之前的句子被认为是上下文。
我们从TED门户网站收集了1866个视频及其英文转录本。这1866个视频选自1741位不同的演讲者,涉及417个话题。笑声标记用于从转录本( Chen and Lee , 2017)中筛选出8257条幽默风趣的短句。上下文从先前的句子中提取到打孔线(直到之前的幽默实例或视频开始为止)。采用类似的方法,在最后一个句子后面没有立即出现笑声标记的随机间隔中选择了8257个负样本。最后一个句子被假设为一个打孔线,与正例相似,语境被选择。这种负采样使用来自相同分布的句子,而不是使用来自其他分布或领域的句子作为负样本( Yang et al , 2015 ;米哈尔恰和Strapparava , 2005)的数据集。在这一负采样之后,正例和负例之间的数据集出现了同质的50 %的分裂。使用强制对齐,我们标记视频中每个句子的开始和结束以及句子中的单词和音素。因此,文本、视觉和声学之间建立了一种对齐关系。利用这种对齐,对数据集中的所有实例提取了打孔线和上下文的时间。
图2:UR - FUNNY数据集统计概况。( a )幽默和非幽默情况下双关语句长的分布。( b )幽默和非幽默情况下语境句长的分布。( c )句子数量在语境中的分布。( d )双关语和上下文句的时长(以秒为单位)分布。( e ) UR - FUNNY数据集中视频的主题。在放大和彩色中最佳观看。
3.2 数据集统计
UR - FUNNY数据集的高级统计量如表2所示。整个数据集的总时长为90.23小时。在UR - FUNNY数据集中,共有1741个不同的说话人,共有417个不同的话题。图2 . e显示了基于主题的日志频率的主题的词云。出现频率最高的五个主题是技术、科学、文化、全球问题和设计4。幽默视频段和非幽默视频段(对8257进行等分)共16514段。每个数据实例的平均时长为19.67秒,其中上下文平均为14.7秒,穿孔线平均为4.97秒。穿孔语的平均词数为16.14个,语境句的平均词数为14.80个。
图2展示了UR - FUNNY数据集的一些重要统计量的概况。图2 . a展示了幽默和非幽默情况下基于单词数量的打孔线分布。幽默和非幽默的双关语没有明显的区别,因为两者遵循相似的分布。类似地,图2 . b显示了每个上下文句子中单词的数量分布。幽默和非幽默语境句子都遵循相同的分布。大多数(≥90 % )的穿孔线长度小于32 .在秒数方面,图2 . d显示了以秒为单位的打孔线和上下文句子长度的分布。图2 . c展示了每个幽默和非幽默数据实例的上下文句子数的分布。每个幽默和非幽默情况下的语境句数量也大致相同。图2中的统计数据表明,幽默和非幽默之间不存在平凡或退化的区别。因此,幽默和非幽默案件的分类不能基于简单的(如字数)指标;它要求理解句子的内容。
表3给出了UR - FUNNY数据集的标准训练集、验证集和测试集。这些折叠互不共用扬声器,因此标准折叠是独立于扬声器的( Zadeh等, 2016)。这就最大限度地减少了对说话人身份或其通信模式过拟合的机会。
表2:UR - FUNNY数据集统计汇总。其中,’ # ‘表示数字,’ avg ‘表示平均值,’ s ‘表示秒数
表3:UR - FUNNY数据集的训练、验证和测试次数统计。这里,’ avg ‘表示平均值,’ # '表示数字。
3.3 提取特征
对于每个模态,提取的特征如下:
语言(文本): 使用手套词嵌入(彭宁顿等, 2014)作为文本特征的预训练词向量。采用P2FA强制对齐模型( Yuan and利伯曼, 2008)对音素层面的文本和音频进行对齐。从力对齐中,我们提取了单词级别的上下文和打孔线的时序注释。然后,通过插值( Chen et al . , 2017)在单词级别上对声学和视觉线索进行对齐。
声学: 使用COVAREP软件( Degottex et al , 2014)以30帧/秒的速率提取声学特征。我们提取了以下81个特征:基频( F0 ),清浊音分段特征( VUV ) ( Drugman和Alwan , 2011),归一化振幅商( NAQ ),准开商( QOQ ) ( Kane和Gobl , 2013),声门源参数( H1H2 , Rd , Rd conf) ( Drugman et al , 2012 ; Alku et al . , 2002 , 1997),抛物谱参数( PSP ),最大频散商( MDQ ),小波响应谱斜率( peak / slope ),梅尔倒谱系数( MCEP 0 ~ 24 ),谐波模型和相位失真均值( HMPDM为0 ~ 24)和偏差( HMPDD为0 ~ 12),以及前3个共振峰。这些声学特征与情感和语调有关。
视觉: 使用OpenFace面部行为分析工具( Baltru saitis et al , 2016),以30帧/秒的速度提取面部表情特征。我们基于面部动作编码系统( Facial Action Coding System,FACS ) ( Ekman , 1997)提取所有面部动作单元( Action Units,AU )特征。刚性和非刚性的人脸形状参数也被提取( Baltru saitis et al , 2016)。我们观察到,在TED演示过程中,摄像机的角度和位置经常变化。然而,在大多数时间里,摄影机都集中在主持人身上。由于相机工作的易变性,唯一一致可用的视觉信息来源是说话人的脸部。
UR - FUNNY数据集与所有提取的特征一起公开供下载。
4 多模态幽默检测
在本节中,我们首先概述了在UR - FUNNY数据集上执行二进制多模态幽默检测的问题表述。接下来,我们通过记忆融合网络( Memory Fusion Network,MFN ) ( Zadeh等, 2018a)的语境化扩展- -多模态语言的最新模型- -来研究UR - FUNNY数据集。
4.1 界定问题
UR - FUNNY数据集是一个包含文本、视觉和声学三种模态的多模态数据集。我们将这些模态的集合记为M = { t,v,a }。每种模态都以顺序形式出现。我们假设模态之间的单词级对齐( Yuan and利伯曼, 2008)。由于文本模态的频率小于视觉和声学(即视觉和声学具有较高的采样率),我们为每个单词( Chen et al . , 2017)使用期望的视觉和声学描述符。经过这个过程后,每个模态具有相同的序列长度(每个单词都有一个单独的视觉和声学向量与之相伴)。
UR - FUNNY中的每个数据样本都可以描述为一个三元组( l、P、C),其中l是幽默或非幽默的二元标签,P是穿孔线,C是上下文。双关语和语境都有多个模态P = { Pm;M∈M },C = { Cm;M∈M }。如果伴随穿孔线的是NC语境句,那么Cm = [ Cm , 1 , Cm , 2 , … , Cm , NC] -是从第一个句子开始到最后一个( NC )句子的语境句。KP为双关语中的词数,KCnSNC n = 1分别为每个语境句中的词数。使用这个符号,Pm,k指的是穿孔线的模态m中的第k个词条。类似地,Cm,n,k指的是第n个语境句的模态m中的第k个词条。
在UR - FUNNY数据集上开发的模型在( l、P、C)的三联体上进行训练。在测试过程中,只给出一个元组( P , C)来预测l。这里l是笑声的标签,具体是指输入P,C是否有可能引发笑声。
图3:单模态语境网络的结构如4.2 . 1节所示。为了演示,我们展示了n = 2 (第二个语境句)的情形。n = NC后,输出H (由蓝色勾勒出)完成。在色彩上最好观赏。
4.2 情境记忆融合基线
记忆融合网络( Memory Fusion Network,MFN )是几个多模态数据集( Zadeh et al , 2018a)的最先进模型之一。我们设计了一个扩展的MFN模型,称为上下文记忆融合网络( C-MFN ),作为在UR - FUNNY数据集上进行幽默检测的基线。通过引入两个组件来允许上下文在MFN模型中的参与:1 )单模态上下文网络,其中每个模态的信息使用M长短期记忆( LSTM )进行编码;2 )多模态上下文网络,其中单模态上下文信息被融合(使用自注意力)以提取多模态上下文信息。在接下来的章节中,我们讨论了C - MFN模型的组成部分。
4.2.1 单模态语境网络
为了对上下文进行建模,我们首先对上下文中的每个模态进行建模。单模态上下文网络(图3 )由M个LSTM组成,每个模态m∈M都有一个LSTM,记为LSTMm。对于每个模态m∈M的每个上下文句子n,使用LSTMm将信息编码为单个向量hm,n。这个单向量是Cm,n上LSTMm的最后一个输出作为输入。每个LSTM的递归步骤是每个单词(由于单词级别的对齐,视觉和声学模态也遵循这个时间步骤)的语句。单模态上下文网络的输出为集合H = { hm,n;M∈M,1≤n < NC } .
4.2.2 多模态语境网络
多模态语境网络(图4 )基于单模态语境网络的输出H学习语境的多模态表示。语境中的句子和情态可以形成复杂的异步时空关系。例如,在语境的逐步建立过程中,说话人的面部表情可能会因为先前所说的任意句子而受到影响。Transformers ( Vaswani et al , 2017)是一个神经模型家族,专注于通过自注意力来发现其输入之间的各种时间关系。通过串联表示hm∈M,n (即对于第n个上下文的所有M个模态),自注意力模型可以应用于发现上下文中的异步时空关系。我们使用一个具有6个中间层的编码器来推导一个以H为条件的多模态表示( H也是时空(由于编码器在变压器中的输出为) )。多模态上下文网络的输出为编码器的输出( H )。
图4:多模态语境网络的结构如4.2 . 2节所示。单模态上下文网络的输出H连接到编码器模块,得到多模态输出( H )。对于橙子中概述的组件的详细信息,请参考作者的原始论文。( Vaswani et al , 2017)。在色彩上最好观赏。
图5:记忆融合网络( Memory Fusion Network,MFN )的初始化和递归过程。单模态和多模态上下文网络( H和( H)的输出用于初始化MFN神经组件。橙中所列成分的详细资料请参阅作者的原始论文( Zadeh et al , 2018a)。在色彩上最好观赏。
4.2.3 记忆融合网络( MFN )
在学习了上下文的单模态( H )和多模态( ( H )表示后,我们使用记忆融合网络( MFN ) ( Zadeh et al , 2018a)对穿孔线进行建模(图5 )。MFN包含2种类型的记忆:一个包含M个单模态记忆的LSTMs系统,用于建模双线中的每个模态;一个存储多模态信息的多视角门控记忆。我们使用一种简单的方法将上下文网络(单模态和多模态)与MFN相结合:我们使用一个简单的技巧将上下文网络(单模态和多模态)与MFN相结合:我们使用输出H (单模态表示)和( H (多模态表示)来初始化MFN中的存储器。对于LSTMs系统,这是通过使用Dm( hm , 1≤n < NC)初始化模态m的LSTM细胞状态来完成的。Dm是一个全连接神经网络,将hm,1≥j≥NC (语境中的第m种情态)的信息映射到LSTMs系统中第m个LSTM的细胞状态。多视角门控记忆网络的初始化基于一个非线性投影D ( ( H ),其中D是一个全连接神经网络。与在单词级别对齐模态的上下文相似,打孔线也以同样的方式对齐。因此,使用MFN的单词级实现,在每个时间步使用一个单词和伴随的双关语的视觉和声学描述符作为LSTMs系统的输入。使用Delt在LSTMs系统的每一次循环中迭代地更新多视图门控内存。
幽默的最终预测以LSTMs和多视角门控记忆系统的最后一个状态为条件,使用带有Sigmoid激活的仿射映射。
5 实验
在本文的实验中,我们的目标是为UR - FUNNY数据集建立一个性能基线。此外,我们旨在了解语境和线索在幽默检测任务中的作用,以及个体模态在幽默检测任务中的作用。对于所有的实验,我们使用了提出的记忆融合网络( MFN )的上下文扩展,称为C - MFN ( 4.2节)。除了提出的C - MFN模型,还研究了以下变体:
**C-MFN ( P ):**C - MFN的这种变体仅使用打孔线,没有上下文信息。本质上,这相当于一个MFN模型,因为没有使用初始化技巧。
**C-MFN ( C ):**C - MFN的这种变体仅使用上下文信息而不使用打孔线。本质上,这相当于去掉了MFN,直接在单模态和多模态语境网络输出(应用DM后Sigmoid激活神经元; m∈M在H上, D在( H上)上对幽默预测进行条件化。
C - MFN的上述变体允许研究双关语和语境在幽默建模中的重要性。此外,我们比较了C - MFN变体在以下场景中的性能:( T )仅使用文本模态而不使用视觉和声学,( T + V )文本和视觉模态而不使用声学,( T + A )文本和声学模态而不使用视觉,( A + V )仅使用视觉和声学模态,( T + A + V )所有模态一起使用。
我们比较了C - MFN变体在上述场景中的性能。这有助于理解语境和线索在幽默检测中的作用,以及不同模态的重要性。我们实验的所有模型都使用分类交叉熵进行训练。该测度是在模型输出与真实标签之间计算得到的。我们还将C - MFN的性能与随机森林分类器作为另一个强非神经基线进行了比较。我们将打孔线和上下文的摘要特征用于随机森林分类器。
表4:CMFN的不同变体和训练场景的二进制精度在第5节中概述。使用文本( T )、视觉( V )和声学( A )这三种模态都取得了最好的性能。
6 结果与讨论
我们的实验结果见表4。结果表明,由于C - MFN优于C - MFN ( P )和C - MFN ( C )模型,上下文和笑点信息都很重要。由于C - MFN ( P )的性能显著高于C - MFN ( C ),所以笑点是检测幽默最重要的成分。
使用所有模态( T + A + V )的模型优于只使用一种或两种模态( ( T、T + A、T + V、A + V) )的模型。在文本( T )和非言语行为( A + V )之间,文本是最重要的模态。大多数情况下,视觉和声学两种模态都提高了文本单独( T + V , T + A)的性能。
基于以上观察,C - MFN模型的每个神经成分对提高幽默的预测是有用的。研究结果还表明,从多模态的角度对幽默进行建模可以获得成功的结果。此外,语境和双关语在理解幽默时都很重要。
随机森林基线(超参数调整后,采用与C - MFN相同的倍数)达到的最高准确率为57.78 %,高于随机基线但低于CMFN ( 65.23 % )。此外,C - MFN比类似的显著单峰的前期工作( 58.9 % )取得了更高的准确率,其中仅使用了双关语和文本信息( Chen and Lee , 2017)。在URFUNNY数据集上的人类性能5为82.5 %。
表4的结果表明,虽然最先进的模型可以在幽默建模方面达到合理的成功水平,但人类水平的表现与最先进的模型之间仍然存在很大的差距。
因此,UR-FUNNY数据集对NLP领域提出了新的挑战,特别是幽默检测和多模态语言分析的研究领域。
7 结论
在本文中,我们提出了一个新的用于幽默检测的多模态数据集UR - FUNNY。该数据集是NLP社区中的第一种数据集。幽默检测是从预测笑声的角度进行的- -类似于( Chen and Lee , 2017)。UR - FUNNY在演讲者和演讲主题上都具有多样性。它包含了文本、视觉和声音三种模态。我们通过一个场景化记忆融合网络( C-MFN )的镜头来研究这个数据集。我们的实验结果表明,如果将三种模态同时使用,幽默可以被更好地建模。此外,语境和双关语在理解幽默时都很重要。该数据集和伴随的实验都是公开的。
注:本文使用Zotero翻译,仅供自己学习使用