【驭风计划自然语言处理】实验5：司法阅读理解

最新推荐文章于 2025-05-24 09:20:31 发布

保国之马

最新推荐文章于 2025-05-24 09:20:31 发布

阅读量311

点赞数 5

CC 4.0 BY-SA版权

文章标签：自然语言处理人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Mege1/article/details/144416450

任务说明

裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。本次任务覆盖多种法律文书类型，包括民事、刑事、行政，问题类型为多步推理，即对于给定问题，只通过单句文本很难得出正确回答，模型需要结合多句话通过推理得出答案。

数据说明

本任务数据集包括约5100个问答对，其中民事、刑事、行政各约1700个问答对，均为需要多步推理的问题类型。为了进行评测，按照9:1的划分，数据集分为了训练集和测试集。注意该数据仅用于本课程的学习，请勿进行传播。

发放的文件为train.json和dev.json，为字典列表，字典包含字段为：

_id：案例的唯一标识符。
context：案例内容，抽取自裁判文书的事实描述部分。数据格式与HotpotQA数据格式一致，不过只包含一个篇章，篇章包括标题（第一句话）和切割后的句子列表。
question：针对案例提出的问题，每个案例只标注一个问题。
answer：问题的回答，包括片段、YES/NO、据答几种类型，对于拒答类，答案应该是"unknown"。
supporting_facts：回答问题的依据，是个列表，每个元素包括标题（第一句话）和句子编号（从0开始）。

同学们需根据案例描述和问题，给出答案及答案依据，最终会综合两部分的效果并作为评判依据，评价方法与HotpotQA一致。

我们提供基础的模型代码在baseline目录下

评分要求

•        提交完整实验报告，报告或代码注释中包含对模型核心原理的理解：6分；
•        使用已有代码进行训练，并且完成开发集评测，得到合理结果：3分；
•        在现有代码基础上，进行进一步的探索和尝试，对结果有分析：6分。

探索和尝试

使用2019年的阅读理解数据集（CJRC）作为辅助数据集，帮助模型提高阅读理解能力
使用别的预训练语言模型完成该实验，例如THUNLP提供的司法BERT
对于新的模型架构进行探索，例如加入图神经网络（GNN）来加强模型的推理能力

参考资料

CAIL2020——阅读理解

完整代码私信

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。