基于原型压缩距离的法医作者归属分析
1. 文本特征概述
在进行作者归属分类模型学习时,需要合适的文本表示以区分不同作者。传统上,文本通过一系列精心选择的特征来表示。以下是几种常见的文本特征类别:
- 词汇特征
- 描述单词、行和字符的比率、平均值、长度、计数和频率。
- 可用于衡量作者词汇丰富度,如不同单词数量与总单词数量的比率。
- 还包括句子统计信息(平均句子长度、句子数量)以及特殊字符(标点符号、空格、数字、大小写字符)的相对频率。
- 句法特征
- 涉及句子形成模式,使用词性标注和功能词。
- 功能词是指不包含文档内容信息的词,如介词、代词或限定词,它们不受作者意识控制,作者会以特定频率使用这些词,从而在文本中留下“写作印记”。
- 实验中使用的功能词数量从 50 个到 365 个不等。
- 语义特征
- 利用自然语言技术(NLP)可获取文本的额外信息,如词性标签。
- 有助于识别同义词、上位词或反义词,从而了解文本上下文,为特征提取提供依据。
- 特定应用特征
- 包含结构特征和特定内容特征。
- 结构特征基于文本的结构和布局,如缩进、段落长度、问候语使用、字体大小或颜色、链接和图像使用等。
- 特定内容特征指文本主题相关的关键词使用,当所有可用文本讨论同一主题时,精心选择的内容信息可能揭示作者的选择。
- 字符特征
- 字符 n - 元组在作者归属领域有
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



