文体计量学高级模型应用解析
在文体分析领域,解决作者归属问题是一个重要的研究方向,同时还有作者画像、作者验证以及风格随时间变化等相关问题。接下来将介绍几种用于解决作者归属问题的方法,这些方法不仅能在该领域发挥作用,也适用于其他文体相关问题。
1. Zeta方法
Zeta方法由Burrows提出,核心思想是关注那些被一位作者频繁使用,而被另一位作者很少使用甚至忽略的词汇或术语。该方法不聚焦于高频词汇,而是基于中频词汇或“真正独特的特征”进行作者归属判断。
1.1 数据处理
- 将文本划分为固定大小n(n范围在900 - 6000)的非重叠块或片段。也可以将同一类别的所有文本连接起来生成一个长文档,再进行细分。
- 例如,以《联邦党人文集》为例,将麦迪逊撰写的所有文章归为基础集,汉密尔顿和杰伊撰写的报纸文章归为对照集。假设验证有争议的文章是否由麦迪逊撰写,若对照集仅为汉密尔顿的文章,则问题变为判断麦迪逊和汉密尔顿谁是有争议文章的真正作者。
1.2 Zeta值计算
- 对于每个单词,分别统计基础集(记为dfB)和对照样本(记为dfC)中至少出现一次该单词的片段数量。只关注单词的存在与否,不考虑其在片段内的重复情况。
- 计算基础集中包含该单词的片段比例:dfB除以片段数量nB;对照集中不包含该单词的片段比例:(nC - dfC) / nC。
- Zeta分数计算公式:
[Z(t) = \frac{dfB}{nB} + \frac{nC - dfC}{nC}] - Zeta分数范围从0(仅在对照集出
文体计量学高级模型在作者归属中的应用
超级会员免费看
订阅专栏 解锁全文
345

被折叠的 条评论
为什么被折叠?



