法律文本蕴含分类与数据增强技术解析
在法律文本处理领域,如何准确解决文本蕴含问题以及提高模型性能是研究的重点。本文将介绍相关的实验设置、结果分析,以及数据增强和模型集成等方法。
法规蕴含分类任务实验
法规蕴含分类任务是一个二元分类问题,用 “Y” 表示正蕴含,“N” 表示其他情况,评估指标为模型的准确率。由于训练阶段模型性能会因权重初始化不稳定,所以在四个句子转换器模型上用 10 种不同随机种子进行了初步实验。
实验有三种设置:
- GNN ORIGINAL :无教科书知识,“all - mpnet - base - v2” 和 “paraphrase - distilroberta - base - v2” 准确率得分相近,但前者在验证数据集上性能方差更低,此设置中 “all - mpnet - base - v2” 为运行 1。
- GNN CONCAT :选择 “all - mpnet - base - v2” 作为运行 2,因其在验证集上性能最佳,且在训练集上与其他模型大致相当。
- GNN AVG :选择 “paraphrase - distilroberta - base - v2” 作为运行 3,该模型在训练数据上多个种子表现良好,在验证数据上也达到峰值性能。
实验结果如下表所示:
| Run | Sentence Transformer | GNN Model | Accuracy |
| — | — | — | — |
| OVGU run1 | all - mpnet
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



