社交媒体内容中反讽标注的多层次方案研究
1. 自动反讽检测
自动反讽检测采用了 Glozz 方案,该方案是基于之前介绍的元素开发的。对于每条推文,使用 Glozz 对单元以及单元之间的关系(若适用)进行标注。关系用于连接推文中的文本单元,共识别出三种关系类型:
- 比较关系 :连接文本中处于比较状态的两个单元或部分。
- 显式矛盾关系 :连接文本中相互显式矛盾的部分。
- 因果关系 :连接文本中一个为原因,另一个为该原因结果的两部分。
Glozz 需要多个输入文件,特别是以 Glozz 输入格式呈现的提议标注方案版本,它会生成一个包含用户创建的不同标注的输出文件。
2. 数据准备
在开始标注过程之前,需要进行初步的数据处理步骤,包括对推文进行预标注并生成 Glozz 所需的输入文件。
在预标注阶段,为了使标注过程更轻松、快速,会自动标注一组线索,具体涉及特定线索,如标点符号、强化词、表情符号、对立词、比较词、人称代词和否定词。
对于这些语言标记的自动预标注,使用了两个词库:CASOAR3 和 EMOTAIX4,用于处理观点和情感词、强化词和感叹词;还使用了语法分析器 MEIT5 对命名实体进行自动标注。自动标注会手动校正,以添加遗漏的标记或纠正错误的标注。
此外,预标注步骤还包括自动分配一些元素:
- 使用 Twitter API 收集的每条推文的唯一标识符。
- 增量标识符,便于标注人员检测需要标注的推文。
- 推文发布日期
超级会员免费看
订阅专栏 解锁全文
18

被折叠的 条评论
为什么被折叠?



