类型III隐喻检测与印地语句子情感多类分类研究
类型III隐喻检测
在类型III隐喻检测的研究中,选取了五种不同的技术,分别为线性支持向量机(LSVM)、径向支持向量机(RSVM)、逻辑回归(LR)、随机森林(RF)和单层神经网络(NN)。
数据集
目前有两个公开可用的类型III隐喻数据集,分别由Tsvetkov等人和Guitiérrez等人提供,具体信息如下表所示:
| 数据集 | #形容词 | 隐喻 | 字面义 | 总数 |
| — | — | — | — | — |
| Tsvetkov等人 | 405 | 884 + 100 | 884 + 100 | 1768 + 200 |
| Guitiérrez等人 | 23 | 4601 | 3991 | 8592 |
| Dataset3 | 409 | 5485 + 100 | 4875 + 100 | 10360 + 200 |
Tsvetkov等人的数据集有1768个训练实例和200个测试实例,包含405个不同的形容词;Guitiérrez等人的数据集虽只有23个不同形容词,但有8592个样本,能为每个<形容词, 名词>对提供足够的建模案例。还将这两个数据集合并创建了Dataset3,用于测试不同模型的效果。
模型实现与评估
使用Python v2.7和Scikit库实现类型III隐喻检测的分类器。对于LSVM、RSVM、LR和RF,使用默认的调优参数;对于神经网络,采用Bizzoni等人提出的第一种架构,并使用TensorFlow和Keras实现。特征集由解析后的(形容词,名词)对的预训练3
超级会员免费看
订阅专栏 解锁全文
490

被折叠的 条评论
为什么被折叠?



