15、法律文本蕴含分类与数据增强技术解析

法律文本蕴含分类与数据增强技术解析

在法律文本处理领域,如何准确解决文本蕴含问题以及提高模型性能是研究的重点。本文将介绍相关的实验设置、结果分析,以及数据增强和模型集成等方法。

法规蕴含分类任务实验

法规蕴含分类任务是一个二元分类问题,用 “Y” 表示正蕴含,“N” 表示其他情况,评估指标为模型的准确率。由于训练阶段模型性能会因权重初始化不稳定,所以在四个句子转换器模型上用 10 种不同随机种子进行了初步实验。

实验有三种设置:
- GNN ORIGINAL :无教科书知识,“all - mpnet - base - v2” 和 “paraphrase - distilroberta - base - v2” 准确率得分相近,但前者在验证数据集上性能方差更低,此设置中 “all - mpnet - base - v2” 为运行 1。
- GNN CONCAT :选择 “all - mpnet - base - v2” 作为运行 2,因其在验证集上性能最佳,且在训练集上与其他模型大致相当。
- GNN AVG :选择 “paraphrase - distilroberta - base - v2” 作为运行 3,该模型在训练数据上多个种子表现良好,在验证数据上也达到峰值性能。

实验结果如下表所示:
| Run | Sentence Transformer | GNN Model | Accuracy |
| — | — | — | — |
| OVGU run1 | all - mpnet

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值