文本风格特征提取与频率特征选择策略
1. 词性标注相关特征提取
词性标注(POS)对于区分不同作者的写作风格具有一定作用。一些常用词存在词性歧义,如“that”,它既可以作限定词(如“that book”),也可以作连词(如“I know that he is in Paris”),甚至作副词(如“I can’t wait that long”)。不同作者对这些常用词的词性使用偏好不同,即使某些词的相对频率相似,也能体现出不同的写作风格。
整体而言,与词的类型数量相比,不同词性标签的数量相对有限,通常在 30 - 50 个。考虑词性标签的 n - 元组(如 IN_DT、JJ_NN_NN)时,可生成的风格标记数量也是合理的。例如,从 40 个不同标签出发,最多可得到 40² = 1600 个二元组或 40³ = 64000 个三元组,但其中很多组合可能不会出现,如“限定词 - 介词 - 限定词”。
有研究发现,单独的词性标签在表征文本风格方面不如单个词有效,但考虑词性标签的二元组或三元组能够较好地刻画文本的潜在风格特征,其性能接近使用单个词的效果。
2. 字母相关特征提取
2.1 字母 n - 元组
单词可看作由字母组成的分子,许多研究建议将字母作为风格特征,尤其是字母序列能提供更有效的风格标记。通常忽略大小写字母的区别,并去除标点符号和符号。不过,也可以将所有标点符号归为同一符号或分为几类。
在生成字母 n - 元组时,如果处理的语言有变音符号(如 é、ü、ì),是否去除变音符号并不明确。为清晰表示词的边界,使用特殊字符(如空格或下划线)分隔单词,这有助于检测前缀或后缀。例如,对于句子“To be or no
超级会员免费看
订阅专栏 解锁全文
884

被折叠的 条评论
为什么被折叠?



