法律问答系统构建方法:从多模型集成到最长公共子序列
在法律信息处理与检索领域,构建高效准确的法律问答系统是一个重要的研究方向。本文将介绍两种不同的构建法律问答系统的方法,一种是基于BERT模型与规则方法的集成,另一种是通过计算最长公共子序列来构建系统。
基于BERT与规则集成的法律问答系统
在构建法律问答系统时,由于不同的微调试验即使使用相同的训练数据集也可能产生不同的答案,因此研究团队进行了五次微调,并将多数投票结果作为最终输出。
- 数据选择
- 利用预训练的Sentence - BERT计算问题文本与生成的民法文本之间的相似度。
- 对文本进行分割、重构和替换处理后,选取相似度最高的前五个文本作为合适的数据集。
- 人名推理
- 在问题文本中,人名有时会被字母(如A和B)替代以进行匿名化处理。团队训练了一个BERT模型,从49个半手动创建的候选名称(如本人、代理人、卖方、买方等)中预测每个字母代表的人名。此过程仅应用于KIS3。
- 如果问题直接以同位语表达指明字母代表的内容,则遵循以下两个规则进行替换:
- 当文本中有“XX人(A)”“A是XX…”等表述时,将所有“A”替换为“XX人”。
- 将“AB间”替换为“A和B之间”,使其更接近民法的表述。之后,基于BERT的系统会对其余字母进行替换预测。同时,训练数据集中含字母作为人名的问题会被消除,因为上述过程会将其转换为非字母符
超级会员免费看
订阅专栏 解锁全文
321

被折叠的 条评论
为什么被折叠?



