一种过滤有用子集的新方法:刑事案例中的应用
在数据处理和决策支持领域,如何从大量生成的语言摘要中筛选出最有用的信息是一个关键问题。本文将介绍一种新的方法,该方法旨在从 CLS - QD 模型生成的所有摘要中选择三个最有用的摘要,并通过刑事案例进行说明。
1. 原型形式与 CLS - QD 模型概述
原型形式通常有两种定义形式:
- (T\left[Q X \text{ are} \to \text{have } Y\right])
- (T\left[Q FX \text{ are} \to \text{have } Y\right])
其中,(Y) 是摘要器(如刑期在 24 到 42 个月之间),(X) 是对象(如 FBCD 犯罪),(Q) 是模糊语言量词(如许多),(T) 是摘要的真实度,范围在 ([0, 1]) 之间。在式(2)中,(F) 是限定词(如具有 80.1(c) 和 79.1(a) 情节),用于获取特定的数据子集。
然而,这些原型形式由于缺乏表达力,通常不会直接提供给用户,并且它们往往是单独处理的,没有考虑它们之间的关系。为了提高语言摘要(LS)的表达力,出现了许多方法,其中 CLS - QD 模型用于从定性数据中生成复合语言摘要。
CLS - QD 模型中的摘要体现了证据(Pe)、对比(Pc)或强调(Ph)关系,这些关系受到修辞结构理论的启发。一个关系(Pr)至少涉及两个组成语句,它们可以作为核心(PN)或卫星(PS),并通过特定的连接器在语义上相连。
CLS - QD 模型定义了三个指标来衡量任何关系 Pr 的质量:真实度 (T(Pr))、关系强度 (S(Pr)) 和覆盖度 (S(
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



