文本作者归属评估与特征选择
1. 作者归属模型评估
在确定《联邦党人文集》中 12 篇有争议文章的真正作者问题上,可以使用之前介绍的性能度量和评估方法来评估三种作者归属模型。每个分类器会提供一个作者姓名的排名列表,排名第一的即为最可能的作者。由于候选作者只有三位,因此选择准确率作为评估指标,即当麦迪逊排在第一位时,答案标记为正确,其他情况则标记为错误。
1.1 Delta 模型
- 不同 MFWs 数量实验 :Delta 模型需要规定用作风格标记的最频繁词类型(MFWs)的数量,标点符号也被视为标记。在未使用复杂特征选择程序的情况下,以出现频率为简单标准进行实验。当 MFWs 数量为 50 或 100 时,产生两个错误分配,均错误地归因于汉密尔顿(论文 #55 和 #56);150 - 300 个 MFWs 时,出现一个错误归因(论文 #55 或 #56);400 或 500 个 MFWs 时,所有答案都正确。通常,有效使用的术语数量应在 200 到 500 之间。并且,即使这样的特征集被称为功能词,但其中很多条目并非功能词,例如从《联邦党人文集》中提取的 50 个 MFWs 中,有与主题相关的词,如“states”“government”“power”等。
- 其他特征集实验 :使用 Mosteller 和 Wallace 建议的 34 个词类型,这些词类型是根据区分汉密尔顿和麦迪逊风格的能力更精心挑选的,Delta 模型产生一个错误(论文 #55 归因于汉密尔顿);使用 Antonia 等人建议的由 192 个条目组成的功能词列表时,所有实例都被正确分类。通过符号检验
超级会员免费看
订阅专栏 解锁全文
2718

被折叠的 条评论
为什么被折叠?



