自然语言处理中的动词分类与语义标注技术
1. 实验设置
在有监督的词义消歧任务中,每个动词都需要训练和测试其专属的分类器。这里采用支持向量机(SVM)进行分类,使用 5 折交叉验证来计算准确率和错误率。为每个目标动词类型建立基线,方法是计算若将动词的所有实例都标记为其最常见的 VerbNet 类时所能达到的准确率。对于所研究的动词集,平均基线准确率为 77.78%。
2. 实验结果
2.1 整体系统准确率
目标动词系统的平均准确率达到了 88.67%,相较于 77.78% 的基线准确率,错误率降低了 49%。与 Abend 等人的分类器相比,在仅考虑多义词动词并使用自动解析器提取特征的情况下,他们的分类器准确率为 91.9%,错误率相较于其 88.6% 的基线降低了 28.95%。
2.2 不同特征组合模型的准确率
为评估所使用特征对分类器性能的贡献,开发了多种由不同特征组合构成的模型。使用 Semlink 语料库的 30% 创建了一个专用测试集,确保每个模型在相同的训练集和测试集上进行评估,以保证比较的一致性。使用该测试集时,包含所有特征的分类器整体性能为 84.64%,略低于上述 5 折交叉验证的准确率,可能是因为此方法使用的训练数据量较少。但与最常见类基线相比,仍实现了 31% 的错误率降低。
不同特征组合模型的准确率和错误率降低情况如下表所示:
| 模型 | 基线 (%) | 准确率 (%) | 错误率降低 (%) |
| — | — | — | — |
| 仅词汇特征 | 77.78 | 83.07 | 23.81 |
| 词汇 + 句法特
超级会员免费看
订阅专栏 解锁全文
868

被折叠的 条评论
为什么被折叠?



