文本风格计量学中的评估方法、经典问题及测试集介绍
在文本风格计量学领域,评估模型的有效性至关重要。下面将详细介绍相关的评估方法、经典的作者归属问题以及可用的测试集。
1. 系统性能比较的 t 检验
在比较系统性能时,t 检验是一种常用的方法。例如,通过函数 t.test() 对系统 A 和系统 B 的 RR 值进行单边 t 检验,代码如下:
> options(digits=6)
> t.test(A, B, var.equal=TRUE, alternative="greater")
输出结果示例:
Two Sample t-test
data: A and B
t = 2.226, df = 18, p-value = 0.0195
alternative hypothesis: true difference in means is greater than 0
95 percent confidence interval:
0.05162689 Inf
sample estimates:
mean of x mean of y
0.4830 0.2495
从输出的 p 值(0.0195 或 1.95%)较小可以看出,数据不支持原假设 H0(两个系统性能相同),而倾向于支持备择假设 H1(系统 A 性能优于系统 B)。
使用 t 检验时,需假设均值差服从正态分布,但在小样本情况下可能不满足该条件。不过,经验表明,即使违反这一假设,p 值受影响不大,且 t
超级会员免费看
订阅专栏 解锁全文
1112

被折叠的 条评论
为什么被折叠?



