法律文本摘要:Transformer 模型的比较分析与应用探索
1. 引言
当前,秘鲁司法系统面临着日常程序过度延迟的问题。这一问题主要源于经济和制度方面的障碍。经济障碍主要体现在约 20.4%的人口处于贫困状态,这导致缺乏教育和资金来寻求法律建议。制度障碍则涉及程序负担、地理障碍和法律教育不足等问题,其中程序负担是导致司法程序延迟的最重要因素,因为律师和法官需要处理大量的诉讼案件,涉及大量的手动阅读和案例研究工作。
近年来,Transformer 架构在自然语言处理领域成为热门话题。在文本生成任务,如文本摘要方面,每年约有 5 到 10 项相关研究,且新的研究不断超越之前的指标得分。文本摘要任务可分为提取式和抽象式,前者学习选择文本中最重要的句子,后者则理解文本并以自己的语言生成摘要。大多数解决方案都使用 CNN/Daily Mail 数据集进行基准测试。
为解决秘鲁司法系统的问题,研究团队决定基于不同的最先进 Transformer 模型进行微调,开发法律文件摘要的概念验证基准,以生成法律抽象摘要。团队选择了自 2017 年 BERT 模型引入以来的多种模型,并手动微调这些模型以比较其性能。研究团队发现,大多数研究使用 ROUGE 指标作为评估文本摘要质量的主要指标,该指标有 5 种变体,其中 ROUGE - 1、ROUGE - 2 和 ROUGE - L 最为重要,得分越高表示摘要质量越好。BART 架构通常被认为是最佳架构,经过微调后其 ROUGE 指标会有所提高。然而,针对法律领域的研究仍然较少。
研究团队的贡献主要包括:
1. 为法律数据集 BillSum 和 GovReport 提供了最新的基准测试结果。
2. 对每个模型进行
超级会员免费看
订阅专栏 解锁全文
1226

被折叠的 条评论
为什么被折叠?



