目录
概要
本文基于一组包含虚假陈述的意大利对话语料库,建立了一种新的最先进的欺骗识别方法,并发现并非所有上下文对这一任务都是同样有用的。只有当文本来自同一说话者时,离目标文本最近的上下文(而不是对话者的提问)才能提升性能。作者还发现,像BERT这样的语言模型中的语义信息对性能有贡献。然而,单独使用BERT并不能捕捉到欺骗线索的隐含知识:其贡献依赖于同时使用注意力机制来从BERT的表示中学习线索。
实验设置
数据集
DECOUR数据集:包括意大利法院举行的35次刑事诉讼听证会的法庭数据记录。这为真实的欺骗数据提供了独特的来源。语料库是意大利语的。它由被访者和一些采访者(如法官、检察官、律师)之间的对话组成。每个对话都包含不同说话人的话语序列。这些话语被称为转折(turns)。根据定义,相邻的回合来自不同的说话者。每个回合包含一个或多个话语(utterances)。受访者的每句话都被标记为“真”、“假”或“不确定”,其他说话者的话语没有标记。
实验条件
本文使用二元分类(虚假陈述与非虚假陈述类别),为了避免在同一听证会的发言上过拟合训练和测试,采用了留一交叉验证的方法,每个折叠构成一个听证会。在这些设置中,每个折叠中一个听证会用作测试集,一个用作开发集,其余的用作训练集。作者为每个折叠进行了五个训练周期,选择在开发集上具有最佳F-score的模型。还识别了七种不同的上下文,这些上下文应该有助于分类任务,连同目标发言。它们如下:
- 前一个发言 - 1prev。考虑目标之前的第一个发言,无论发言者是谁。
- 前两个发言 - 2prev。与上述相同,但这里收集目标之前的前两个句子。
- 前三个发言 - 3prev。在这种情况下,收集前三个发言,同样不考虑发言者。
- 发言者的前一个发言 - s-utt。在这种情况下仅考虑目标之前的发言,如果发言者是同一位受访者。如果另一个发言者发出了前一个发言,则不收集该发言,目标发言将没有上下文。
- 发言者的前几个发言 - s-utts。与前一种情况类似,仅收集受访者的发言,但如果目标发言之前有多个发言(在同轮次内),则全部收集。换句话说,收集本目标在该轮次的所有发言。
- 发言者的前几个发言 + 轮次 - s-utturn。考虑所有可能的发言者发言和前一个轮次,该轮次属于另一个发言者。如果没有前一个发言者的发言,我们仅收集前一个轮次。这将使该实例等同于根据最后一种条件创建的实例。
- 前一个轮次 - turn。收集整个前一个轮次,这是唯一上下文不是由受访者自己产生的情况。
对话示例
A: “我觉得这个计划很有前景。”
B: “但是我们需要更多的数据支持。”
A: “我们可以考虑不同的方案。”
B: “我同意,但时间紧迫。”
A: “那么我们应该尽快行动。”
B: “是的,时间不等人。”
A: “我会准备一个详细的提案。”
目标发言是A的“我会准备一个详细的提案。” | |
1prev</ |