文体计量应用的高级模型解析
在文体计量学领域,解决作者归属问题和验证问题以及处理协作写作情况是重要的研究方向。下面将详细介绍相关的模型、方法及其应用。
1. 基于主题模型解决作者归属问题
利用模型解决作者归属问题有两种实现方式:
- 主题与作者一一对应 :可以将一个主题(即给定的单词分布)对应一位作者。先估计潜在分布,再根据已知作者的文本样本中主题的分布来推断主题与作者姓名的映射关系。之后,系统就能推断出新文本的主题分布。例如,若有疑问的文本中 50% 对应主题 3,30% 对应主题 1,20% 对应主题 4,那么推测作者就是与主题 3 相关的那位。
- 主题数量多于作者数量 :更现实的情况是,一位作者可能会写几个主题的内容。已知某位作者的一组文本后,可以对这些文本上的主题分布进行平均,从而创建作者画像。在实验中发现,一位作者通常可以由几个主要主题(1 - 4 个)来表征,其余主题出现的概率较低。确定有争议文档的主题分布后,可以使用 Kullback - Leibler 散度来测量两个主题分布之间的距离,距离最短的对应最可能的作者。初步研究表明,在处理 20 位专栏作家撰写的报纸文章时,该方法的有效性相对较高(80 - 90%)。
此外,LDA 还可用于表示文体或词汇随时间的变化,例如通过分析《美国社会学杂志》的标题和摘要来说明美国社会学的时间演变,以及关于国情咨文的相关研究。
2. 验证问题
验证问题是指对于给定的查询文本 Q 和作者 A,判断 A 是否为该文本的作者,答案为二元(是或否)。但这是一个难题,因为文本风格受多种因素影响,如文本
超级会员免费看
订阅专栏 解锁全文
345

被折叠的 条评论
为什么被折叠?



