25、自然语言处理中的动词分类与语义标注技术

自然语言处理中的动词分类与语义标注技术

1. 实验设置

在有监督的词义消歧任务中,每个动词都需要训练和测试其专属的分类器。这里采用支持向量机(SVM)进行分类,使用 5 折交叉验证来计算准确率和错误率。为每个目标动词类型建立基线,方法是计算若将动词的所有实例都标记为其最常见的 VerbNet 类时所能达到的准确率。对于所研究的动词集,平均基线准确率为 77.78%。

2. 实验结果

2.1 整体系统准确率

目标动词系统的平均准确率达到了 88.67%,相较于 77.78% 的基线准确率,错误率降低了 49%。与 Abend 等人的分类器相比,在仅考虑多义词动词并使用自动解析器提取特征的情况下,他们的分类器准确率为 91.9%,错误率相较于其 88.6% 的基线降低了 28.95%。

2.2 不同特征组合模型的准确率

为评估所使用特征对分类器性能的贡献,开发了多种由不同特征组合构成的模型。使用 Semlink 语料库的 30% 创建了一个专用测试集,确保每个模型在相同的训练集和测试集上进行评估,以保证比较的一致性。使用该测试集时,包含所有特征的分类器整体性能为 84.64%,略低于上述 5 折交叉验证的准确率,可能是因为此方法使用的训练数据量较少。但与最常见类基线相比,仍实现了 31% 的错误率降低。

不同特征组合模型的准确率和错误率降低情况如下表所示:
| 模型 | 基线 (%) | 准确率 (%) | 错误率降低 (%) |
| — | — | — | — |
| 仅词汇特征 | 77.78 | 83.07 | 23.81 |
| 词汇 + 句法特

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值