法律案件摘要中的段落聚类研究
1. 段落聚类基础与对象适配度计算
在法律案件摘要处理中,对于每个对象 $i$,其与所在簇中其他对象的平均相似度记为 $a(i)$,与第二选择簇的相似度记为 $b(i)$,通过公式 $f(i) = \frac{a(i) - b(i)}{\max (a(i), b(i))}$ 计算对象 $i$ 对其簇的适配度。
对于不同的 $k$ 值($k \neq 1$ 且 $k \neq n$),会计算出最佳或良好的聚类结果。具体步骤如下:
1. 计算每个对象对其簇的适配度。
2. 对这些适配度值求平均值。
3. 选择使平均适配度值最大的 $k$ 值作为最佳 $k$ 值。
为了判断 $k = 1$(当最佳 $k = 2$ 时)或 $k = n$(当最佳 $k = n - 1$ 时)是否代表更好的聚类,会分别进行如下测试:
- 测试 $k = 1$ 时,计算每个未选中对象与其中心点的平均相似度是否增加。
- 测试 $k = n$ 时,计算不同簇对象之间的平均相似度是否降低。
簇的中心点(medoid),即簇中最中心的对象,能代表每个犯罪或主题的描述。那些通过内容词模式与多个其他文本句子或段落紧密相连的文本句子或段落,被认为是有信息价值的,适合纳入摘要。
除了段落,还会从包含超过三个对象的法院意见段落簇中提取关键术语。目前,从簇的平均向量的术语中选择权重最高的两个术语作为关键术语。
2. 法律案件聚类算法评估
在 700 个刑事案件上对指控罪行和法院意见的代表性段落识别进行评估。评估采用召回率(recall)、精确率(precision)、过度生
超级会员免费看
订阅专栏 解锁全文
1065

被折叠的 条评论
为什么被折叠?



