法律文本分析的词法 - 形态建模
在法律文本分析领域,为了有效地处理法律查询与相关条文之间的关系,需要进行相关性分析(RA)和文本蕴含识别(TE)。不同文章处理同一主题时措辞相似,且问题可能不提及主题关键词或使用替代词,同时日本民法典规模有限,从条文中获取可靠语言信息困难,问题还会呈现新的语言结构。
简单问答任务:文本蕴含
文本蕴含(TE)的目标是判断法律查询能否由通过相关性分析检索到的相关条文集合来回答。这一任务可通过识别文本蕴含(RTE)来完成,将查询视为假设,相关条文视为证据。给定问题 Q 和相关条文集合 A(A = {a1, …, an}),若 Q 能由 ai(1 ⩽ i ⩽ n)回答,则 ai 蕴含 Q。若存在蕴含关系,(Q, ai) 对标记为“YES”,否则为“NO”。
提出的方法
为了能在第一、二阶段分别独立执行相关性分析和文本蕴含识别,并在第三阶段联合执行,分别开发了信息检索(IR)和分类器方法。首先分析法律语料库和训练数据,并将其组合成表示模型,然后根据任务对条文进行排名或对答案进行分类。相关性分析使用的表示模型是混合大小的 n - 元语法集合,文本蕴含使用的是机器学习的特征向量。
相关性分析
对民法典和训练数据的详细分析表明,问题与条文之间以及同一主题的条文之间,词汇和句法重叠程度差异很大,但某些形态特征(如词元)在不同主题间保持较高一致性。因此,采用混合大小的 n - 元语法模型,n 取值范围为 [1, k],即由最多 k 个单词组成的序列,且对这些术语进行词元化处理,此相关性分析方法命名为 R2NC(Ranking Related N - gram Collections)。