HUKB在COLIEE 2022法规任务中的系统应用与性能分析
1. 引言
在法律信息处理领域,高效准确地检索和分析法规条文至关重要。为了参与COLIEE 2022的任务3和任务4,我们引入了基于BERT的信息检索(IR)和蕴含系统,并结合多种方法进行优化,以提高系统的性能。
2. 系统方法
2.1 数据预处理
在生成最终检索结果时,需要将组合条文分解为原始条文。对于后处理,用原始条文替换组合条文的结果。若结果中存在冗余,则选择排名最高的条文。对于子条文检索结果,同样如此。
2.2 BERT - 基于的IR和蕴含系统
- BERT - 基于的IR系统
- 模型微调 :将BERT模型微调为二元分类任务,用于判断查询与条文是否相关。基于训练好的模型,系统为给定问题的所有文档计算得分,并据此对文档进行排名。
- 模型选择 :今年的系统使用BERT - Japanese3作为基于BERT的模型,而非京都大学提供的BERT模型。
- 训练数据制作 :为每个查询从条文数据集中随机选择50个负例,并对相关文档进行5次过采样,以平衡正例和负例。
- 目标文档数据库 :使用条文数据集和子条文数据库。所有条文和子条文按相似度得分排序,并使用与基于关键词的IR结果相同的方法去除冗余条文。
- 多
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



