文体计量应用的高级模型与对抗策略
1. 基于词嵌入的作者归属模型
在文体计量学中,有一种用于文档表示的模型,其公式如下:
[
D = \sum_{i=1}^{m} r_i \cdot
\begin{bmatrix}
v_{i,1} \
v_{i,.} \
v_{i,q}
\end{bmatrix}
= r_1 \cdot
\begin{bmatrix}
v_{1,1} \
v_{1,.} \
v_{1,q}
\end{bmatrix}
+ r_2 \cdot
\begin{bmatrix}
v_{2,1} \
v_{2,.} \
v_{2,q}
\end{bmatrix}
+ \cdots + r_m \cdot
\begin{bmatrix}
v_{m,1} \
v_{m,.} \
v_{m,q}
\end{bmatrix}
]
其中,(r_i) 表示与第 (i) 个词类型相关的权重,可将其视为该词类型在文档 (D)(或作者轮廓)中的相对频率。
在使用这个模型时,需要明确每个文档表示中包含的 (m) 个词类型。以往的文体研究表明,最常用的词或功能词能提供有效的文体特征。与传统的作者归属模型不同,词嵌入表示考虑了所选术语的上下文。例如,如果一位作者更频繁地使用 “of the” 这样的结构,那么 “of” 和 “the” 的词嵌入向量就会反映出这种词汇用法。
初步评估显示,词嵌入用于作者归属的整体效果与现有最先进的
超级会员免费看
订阅专栏 解锁全文
1076

被折叠的 条评论
为什么被折叠?



