文章主要内容总结
本文聚焦于利用大型语言模型(LLMs)评估德国雇佣合同条款的合法性,旨在解决法律工作中文本密集、资源消耗大的问题。研究通过与法律专家合作扩展现有数据集,测试了不同LLMs在三种法律上下文(无法律上下文、完整法律文本及判例、提炼的审查指南)下将条款分类为“有效(valid)”“不公平(unfair)”或“无效(void)”的能力。
实验结果显示:完整法律文本对模型性能有一定提升,而提炼的审查指南显著提高了对“无效”条款的召回率,加权F1分数达80%;但即使如此,LLMs在完整法律文本上的表现仍远低于人类律师。此外,研究扩展了数据集(包含审查指南、法律来源及注释),并公开了代码和日志文件以确保可复现性。
创新点
- 数据集扩展:在现有数据集基础上,新增了针对无效条款的审查指南、相关法律及判例的全文和引用,填补了德国雇佣合同合法性分析的数据集空白。
- 法律上下文对比:首次系统比较了无法律上下文、完整法律文本、提炼的审查指南三种场景下LLMs的表现,证实了审查指南对提升模型性能的显著作用。
- 可复现性保障:公开了扩展后的数据集、实验代码及所有日志文件,为后续研究提供了可靠基础。
- 特定领域聚焦:针对德国雇佣合同这一细分领域,探讨了LLMs在法律涵摄(legal subsumption)任务中的适用性,补充了非英语法律NLP研究的不足。
LLMs在德国雇佣合同合法性评估中的应用
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



