社交媒体内容中的讽刺标注多级方案
1. 引言
在当今的社交媒体环境中,讽刺作为一种复杂的语言现象,广泛存在于推文和其他微博客内容中。为了更好地理解和分析这种现象,我们需要一个有效的标注方案来识别和分类讽刺。本章的目标是为特定类型的文本,如推文,提出一种讽刺的标注方案。通过这种方式,我们可以更深入地研究讽刺在社交媒体中的表达方式及其背后的语用现象。
1.1 研究背景
目前,针对讽刺的标注方案大多集中在全局层面,忽略了语言和超语言线索的具体作用。这些方案通常只包括一个标注层次,通过隐喻类型(讽刺/非讽刺)、极性(正面、负面或中性)或语用手段(极性反转、夸张或委婉语)来描述推文。然而,从语言学的角度来看,讽刺的表达远不止于此。为了更细致地研究讽刺,我们需要一个多级标注方案,涵盖不同粒度级别的讽刺表达。
2. FrIC(法国讽刺语料库)
在没有现成的法语讽刺推文语料库的情况下,我们着手构建自己的语料库,其中包括讽刺和非讽刺的推文。我们从2014年春季到2016年秋季期间媒体讨论的主题中选择了一系列话题,假设这些话题的语用背景更容易被标注者理解。我们选择了186个主题,分布在九个类别中(政治、体育、音乐等),并为每个主题选择了一组关键词和标签。
2.1 数据收集
推文的收集基于两个主要标准:一是包含特定标签(如#ironie或#sarcasme)的推文被视为讽刺,二是不包含这些标签的推文被视为非讽刺。我们通过这些标签来初步筛选推文,并进一步筛选出与选定主题相关的内容。这样做的目的是确保语料库中的推文具有足够的多样性,同时保持一定的主题集中度。