网络犯罪调查中的作者身份分析
1. 作者身份分析概述
作者身份分析是通过检查作品特征来推断作者身份的过程,可细分为以下三个子领域:
- 作者识别 :通过检查作者的其他作品,确定其创作某一作品的可能性。
- 作者特征描述 :总结作者的特点,并根据其作品生成作者画像,如性别、教育和文化背景、语言熟悉程度等。
- 相似度检测 :比较多篇作品,判断是否为同一作者所写,而无需明确作者身份。
作者身份分析应用广泛,源于历史文献的作者归属问题。例如,它成功解决了莎士比亚作品的争议,也助力解决了《联邦党人文集》和《大学航空炸弹怪客宣言》的作者争论。此外,还应用于软件取证领域,但本文主要关注文本分析,不涉及软件取证。
过去作者身份分析的主要研究主题包括特征选择和分析技术,下面从这两个角度进行详细介绍。
2. 特征选择
作者身份分析的核心是形成一组相对稳定的特征或指标。最初,研究人员通过对不同作者使用的不同词汇集进行分类来识别作者,如对莎士比亚作品的分析。然而,这种基于词汇使用的方法受文本主题影响较大,效果有限。
为了进行有效区分,需要“无内容”特征,即风格标记。Yule提出了句子长度和词汇丰富度等特征,Mosteller和Wallace提取功能词,Burrows开发了高频词集,Tomoji使用特定词集分析狄更斯的叙事风格,Binongo和Smith用介词频率区分王尔德的戏剧和散文,Holmes分析了短词和元音开头的词。但基于词汇的方法高度依赖作者和语言,难以广泛应用。
为避
超级会员免费看
订阅专栏 解锁全文
59

被折叠的 条评论
为什么被折叠?



