9、社交媒体内容中反讽标注的多层次方案研究

社交媒体内容中反讽标注的多层次方案研究

1. 自动反讽检测

自动反讽检测采用了 Glozz 方案,该方案是基于之前介绍的元素开发的。对于每条推文,使用 Glozz 对单元以及单元之间的关系(若适用)进行标注。关系用于连接推文中的文本单元,共识别出三种关系类型:
- 比较关系 :连接文本中处于比较状态的两个单元或部分。
- 显式矛盾关系 :连接文本中相互显式矛盾的部分。
- 因果关系 :连接文本中一个为原因,另一个为该原因结果的两部分。

Glozz 需要多个输入文件,特别是以 Glozz 输入格式呈现的提议标注方案版本,它会生成一个包含用户创建的不同标注的输出文件。

2. 数据准备

在开始标注过程之前,需要进行初步的数据处理步骤,包括对推文进行预标注并生成 Glozz 所需的输入文件。

在预标注阶段,为了使标注过程更轻松、快速,会自动标注一组线索,具体涉及特定线索,如标点符号、强化词、表情符号、对立词、比较词、人称代词和否定词。

对于这些语言标记的自动预标注,使用了两个词库:CASOAR3 和 EMOTAIX4,用于处理观点和情感词、强化词和感叹词;还使用了语法分析器 MEIT5 对命名实体进行自动标注。自动标注会手动校正,以添加遗漏的标记或纠正错误的标注。

此外,预标注步骤还包括自动分配一些元素:
- 使用 Twitter API 收集的每条推文的唯一标识符。
- 增量标识符,便于标注人员检测需要标注的推文。
- 推文发布日期

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值