自然语言处理与人工智能问责制:深入探索核心语义
1. 自然语言处理结果与人工评审的比较
当提出 $N$ 个更改时,会涉及一个集合 $C$,它由 $c(i) (i = 1, …, N)$ 组成,其中:
$c(i) = [Set(i) of Old - Clauses, Related - Comments, Set(i) of New - Proposed - Clauses]$
一般情况下,对于同一个旧条款可能会有更多组新的提议条款,但最常见且简单的情况是一个条款被要求更改为一个新条款(可能没有相关评论),此时我们研究的元素就变成了三元组:
$c(i) = [Old - Clause(i), Related Comments, New - Proposed - Clause(i)]$
之后会根据一些可关联指标的标准,对 $Old - Clause(i)$ 和 $New - Proposed - Clause(i) (i = 1, ...., N)$ 进行比较。以下是一些衡量提议更改的指标示例:
- 单词数量变化
- 新提议条款中新单词或词元的百分比
- 新提议条款中删除单词或词元的百分比
- 根据定义的质量管理(QM),每种类型的工具警告(如 QuARS 工具)的密度变化
部分指标的结果在图中有所展示。此外,还可以考虑句子复杂度和可读性指数等各种参数的变化。
通过对整个更改集合 $C$ 的测量结果进行分析,我们希望找到一种方法来评估评审人员为使条款对用户(如实施人员、测试人员、评估人员)更易理解所付出的努力。而更改的技术动机是一个真正的挑战,但我们认为通过考虑属于领域行话的单词频率
超级会员免费看
订阅专栏 解锁全文
2512

被折叠的 条评论
为什么被折叠?



