22、法律案件摘要中的段落聚类研究

法律案件摘要中的段落聚类研究

1. 段落聚类基础与对象适配度计算

在法律案件摘要处理中,对于每个对象 $i$,其与所在簇中其他对象的平均相似度记为 $a(i)$,与第二选择簇的相似度记为 $b(i)$,通过公式 $f(i) = \frac{a(i) - b(i)}{\max (a(i), b(i))}$ 计算对象 $i$ 对其簇的适配度。
对于不同的 $k$ 值($k \neq 1$ 且 $k \neq n$),会计算出最佳或良好的聚类结果。具体步骤如下:
1. 计算每个对象对其簇的适配度。
2. 对这些适配度值求平均值。
3. 选择使平均适配度值最大的 $k$ 值作为最佳 $k$ 值。

为了判断 $k = 1$(当最佳 $k = 2$ 时)或 $k = n$(当最佳 $k = n - 1$ 时)是否代表更好的聚类,会分别进行如下测试:
- 测试 $k = 1$ 时,计算每个未选中对象与其中心点的平均相似度是否增加。
- 测试 $k = n$ 时,计算不同簇对象之间的平均相似度是否降低。

簇的中心点(medoid),即簇中最中心的对象,能代表每个犯罪或主题的描述。那些通过内容词模式与多个其他文本句子或段落紧密相连的文本句子或段落,被认为是有信息价值的,适合纳入摘要。

除了段落,还会从包含超过三个对象的法院意见段落簇中提取关键术语。目前,从簇的平均向量的术语中选择权重最高的两个术语作为关键术语。

2. 法律案件聚类算法评估

在 700 个刑事案件上对指控罪行和法院意见的代表性段落识别进行评估。评估采用召回率(recall)、精确率(precision)、过度生

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值