BERTective: Language Models and Contextual Information for Deception Detection

本文链接：https://blog.youkuaiyun.com/m0_64764193/article/details/144510342

概要

本文基于一组包含虚假陈述的意大利对话语料库，建立了一种新的最先进的欺骗识别方法，并发现并非所有上下文对这一任务都是同样有用的。只有当文本来自同一说话者时，离目标文本最近的上下文（而不是对话者的提问）才能提升性能。作者还发现，像BERT这样的语言模型中的语义信息对性能有贡献。然而，单独使用BERT并不能捕捉到欺骗线索的隐含知识：其贡献依赖于同时使用注意力机制来从BERT的表示中学习线索。

实验设置

数据集

DECOUR数据集：包括意大利法院举行的35次刑事诉讼听证会的法庭数据记录。这为真实的欺骗数据提供了独特的来源。语料库是意大利语的。它由被访者和一些采访者（如法官、检察官、律师）之间的对话组成。每个对话都包含不同说话人的话语序列。这些话语被称为转折（turns）。根据定义，相邻的回合来自不同的说话者。每个回合包含一个或多个话语（utterances）。受访者的每句话都被标记为“真”、“假”或“不确定”，其他说话者的话语没有标记。

实验条件

本文使用二元分类（虚假陈述与非虚假陈述类别），为了避免在同一听证会的发言上过拟合训练和测试，采用了留一交叉验证的方法，每个折叠构成一个听证会。在这些设置中，每个折叠中一个听证会用作测试集，一个用作开发集，其余的用作训练集。作者为每个折叠进行了五个训练周期，选择在开发集上具有最佳F-score的模型。还识别了七种不同的上下文，这些上下文应该有助于分类任务，连同目标发言。它们如下：

前一个发言 - 1prev。考虑目标之前的第一个发言，无论发言者是谁。
前两个发言 - 2prev。与上述相同，但这里收集目标之前的前两个句子。
前三个发言 - 3prev。在这种情况下，收集前三个发言，同样不考虑发言者。
发言者的前一个发言 - s-utt。在这种情况下仅考虑目标之前的发言，如果发言者是同一位受访者。如果另一个发言者发出了前一个发言，则不收集该发言，目标发言将没有上下文。
发言者的前几个发言 - s-utts。与前一种情况类似，仅收集受访者的发言，但如果目标发言之前有多个发言（在同轮次内），则全部收集。换句话说，收集本目标在该轮次的所有发言。
发言者的前几个发言 + 轮次 - s-utturn。考虑所有可能的发言者发言和前一个轮次，该轮次属于另一个发言者。如果没有前一个发言者的发言，我们仅收集前一个轮次。这将使该实例等同于根据最后一种条件创建的实例。
前一个轮次 - turn。收集整个前一个轮次，这是唯一上下文不是由受访者自己产生的情况。