以简驭繁:构建法律问答系统
1. 任务概述
在法律信息处理领域,有两个重要任务:
- 任务3:法律信息检索任务 :输入为律师考试的“是/否”问题,输出为相关的民法典条文。
- 任务4:识别法律条文与查询之间的蕴含关系 :输入为律师考试问题及其相关条文,输出为“是/否”答案。
对于任务3,建议的评估指标包括精确率(Precision)、召回率(Recall)和F2值(F2 - measure),计算公式如下:
- 精确率 = (每个查询正确检索到的条文数量)的平均值 / 每个查询检索到的条文数量
- 召回率 = (每个查询正确检索到的条文数量)的平均值 / 每个查询相关的条文数量
- F2值 = 5 × 精确率 × 召回率 / (4 × 精确率 + 召回率)
任务4的目标是构建一个用于法律查询的“是/否”问答系统,评估系统性能是通过其对未处理查询的“是/否”回答。训练数据包含查询、相关条文和表示正确答案的“Y”或“N”标签,测试数据仅包含查询和相关条文,没有“Y/N”标签。
2. 数据预处理
研究仅使用了主办方提供的原始日语语料库。最初有1086个律师考试问题( )和768条民法典条文( )。设计思路是从训练问题和相关条文中找出对称差集文本,具体步骤如下:
1. 比较 和 的单词。
2. 选取仅出现在 或 中的单词作为“对称差集文本”,丢弃同时出现在两者中的单词。
3. 构建对称差集文本时排除民法典条文编号以减少噪声。
例如,在训练数据 中,查询“R02 - 27
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



