1. 独热编码
2. 稠密编码(嵌入)
将每个核心特征(比如词性)嵌入到D维空间中,用空间中的一个向量表示。
通常空间维度D远小于样本数。
嵌入的向量作为参数一起被训练。
即一个 V * D 的参数矩阵,V为词表大小,D为空间维数。将一个词的one hot向量与该矩阵相乘即可得到该词的嵌入向量
如何使用稠密编码?
- 抽取一组语言学特征。
- 检索出每个单词的向量。
- 将向量组合(可以是拼接、相加等方式)。
- 输入的分类器中。
大名鼎鼎的word2vec就是一种稠密编码。
将词向量训练好,再放进模型中进行下游任务,预训练就可以这么理解。
3. 组合稠密向量
连续词袋模型:
C B O W ( f 1 , . . . , f k ) = 1 k Σ i = 1 k v ( f i ) CBOW(f_1, ... , f_k) = \frac{1}{k} \Sigma_{i=1}^kv(f_i) CBOW(f1,...,fk

本文探讨了深度学习中特征编码的三种主要方法:独热编码、稠密编码(嵌入)和组合稠密向量。独热编码将离散特征转换为稀疏向量,而稠密编码通过训练词嵌入矩阵,将词汇映射到低维空间。组合稠密向量如连续词袋模型,通过平均或加权平均邻近词的向量来创建新的表示。预训练的词嵌入如word2vec在下游任务中表现出色。这些技术在理解和处理文本特征时起着关键作用。
最低0.47元/天 解锁文章
1137

被折叠的 条评论
为什么被折叠?



