这篇文章聚焦法律AI领域,提出了首个专为刑事法庭意见生成设计的中文轻量级大模型ShiZhi,并构建了高质量数据集CCVG,有效提升了法庭意见生成与罪名预测性能。
一、文章主要内容总结
- 研究背景与任务:刑事法庭意见生成(CVG)是法律AI的核心任务,需基于案件事实自动生成判决书中的“法庭意见”部分。该任务因案件事实复杂多样,直接生成难度较高,且此前缺乏专门针对该任务的大模型。
- 核心工作:
- 数据集构建:创建中文法庭意见生成数据集CCVG,包含超11万条案件数据,每条数据均配对“案件事实”与“法庭意见”,并通过多步过滤(如基于关键词提取章节、罪名提取、长度筛选)保证数据质量。
- 模型开发:以Qwen2-0.5B-Instruct为基础模型,在CCVG上进行微调,开发出0.5B参数的轻量级模型ShiZhi,采用法官角色设定的提示词模板,适配CVG任务。
- 实验结果:ShiZhi在法庭意见生成任务上BLEU-1达58.5,罪名预测任务准确率86.1%、宏F1值92.5%,显著优于基础模型,证明高质量领域数据微调能让轻量级模型具备优秀的法律文本生成与推理能力。
- 局限性:模型与数据集仅支持中文,无法适配其他语言与法律体系;数据集案件截止到2021年,未涵盖最新法律动态;仅探索0.5B参数模型,未验证不同模型规模的影响。
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



