【自然语言处理】- 作业5: 智能问答在法律智能领域的应用

原创已于 2023-05-29 09:47:37 修改 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #人工智能 #知识图谱

于 2023-05-22 12:29:43 首次发布

学堂在线专栏收录该内容

29 篇文章

订阅专栏

驭风计划由清华大学教师团队教授，涵盖机器学习、深度学习等课程。其中，自然语言处理部分涉及统计方法、预训练模型等。任务是通过机器理解裁判文书进行多步推理，数据集包括约5100个问答对，模型需要结合多句文本推理答案。评分包括基础模型理解和改进尝试。探索方向包括使用CJRC数据集、司法BERT和GNN增强模型能力。

课程链接: 清华大学驭风计划

代码仓库：Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)

驭风计划是由清华大学老师教授的，其分为四门课，包括: 机器学习(张敏教授) ，深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名，除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现，由于篇幅限制，只展示任务布置以及关键代码，如果需要报告或者代码可以私聊博主

自然语言处理部分授课老师为刘知远教授，主要通过从统计方法入门，embedding，预训练模型，知识图谱，关系抽取，文本生成以及信息检索等不同下游任务入门自然语言处理

有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~

任务介绍

裁判文书中包含了丰富的案件信息，比如时间、地点、人物关系等等，通过机器智能化地阅读理解裁判文书，可以更快速、便捷地辅助法官、律师以及普通大众获取所需信息。
本次任务覆盖多种法律文书类型，包括民事、刑事、行政，问题类型为多步推理，即对于给定问题，只通过单句文本很难得出正确回答，模型需要结合多句话通过推理得出答案。

数据说明

本任务数据集包括约5100个问答对，其中民事、刑事、行政各约1700个问答对，均为需要多步推理的问题类型。为了进行评测，按照9:1的划分，数据集分为了训练集和测试集。注意该数据仅用于本课程的学习，请勿进行传播。

发放的文件为 train.json和 dev.json，为字典列表，字典包含字段为：

_id：案例的唯一标识符。
context：案例内容，抽取自裁判文书的事实描述部分。数据格式与HotpotQA数据格式一致，不过只包含一个篇章，篇章包括标题（第一句话）和切割后的句子列表。
question：针对案例提出的问题，每个案例只标注一个问题。
answer：问题的回答，包括片段、YES/NO、据答几种类型，对于拒答类，答案应该是"unknown"。
supporting_facts：回答问题的依据，是个列表，每个元素包括标题（第一句话）和句子编号（从0开始）。

同学们需根据案例描述和问题，给出答案及答案依据，最终会综合两部分的效果并作为评判依据，评价方法与HotpotQA一致。

我们提供基础的模型代码在 baseline目录下

评分要求

分数由两部分组成。首先，读懂已有代码并添加适量注释。使用已有代码在训练数据上进行训练，并且完成开发集评测，这部分占60%，评分依据为模型的开发集性能和报告，报告主要包括对于模型基本原理的介绍，需要同学阅读代码进行学习。
第二部分，进行进一步的探索和尝试，我们将在下一小节介绍可能的尝试，并在报告中汇报尝试的方法以及结果，这部分占40%。同学需要提交代码和报告，在报告中对于两部分的实验都进行介绍。