1. 独热编码
2. 稠密编码(嵌入)
将每个核心特征(比如词性)嵌入到D维空间中,用空间中的一个向量表示。
通常空间维度D远小于样本数。
嵌入的向量作为参数一起被训练。
即一个 V * D 的参数矩阵,V为词表大小,D为空间维数。将一个词的one hot向量与该矩阵相乘即可得到该词的嵌入向量
如何使用稠密编码?
- 抽取一组语言学特征。
- 检索出每个单词的向量。
- 将向量组合(可以是拼接、相加等方式)。
- 输入的分类器中。
大名鼎鼎的word2vec就是一种稠密编码。
将词向量训练好,再放进模型中进行下游任务,预训练就可以这么理解。
3. 组合稠密向量
连续词袋模型:
C B O W ( f 1 , . . . , f k ) = 1 k Σ i = 1 k v ( f i ) CBOW(f_1, ... , f_k) = \frac{1}{k} \Sigma_{i=1}^kv(f_i) CBOW(f1,...,fk