NLP基础知识 2-3 特征输入

本文探讨了深度学习中特征编码的三种主要方法:独热编码、稠密编码(嵌入)和组合稠密向量。独热编码将离散特征转换为稀疏向量,而稠密编码通过训练词嵌入矩阵,将词汇映射到低维空间。组合稠密向量如连续词袋模型,通过平均或加权平均邻近词的向量来创建新的表示。预训练的词嵌入如word2vec在下游任务中表现出色。这些技术在理解和处理文本特征时起着关键作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 独热编码

2. 稠密编码(嵌入)

将每个核心特征(比如词性)嵌入到D维空间中,用空间中的一个向量表示。
通常空间维度D远小于样本数。
嵌入的向量作为参数一起被训练。

即一个 V * D 的参数矩阵,V为词表大小,D为空间维数。将一个词的one hot向量与该矩阵相乘即可得到该词的嵌入向量

如何使用稠密编码?

  1. 抽取一组语言学特征。
  2. 检索出每个单词的向量。
  3. 将向量组合(可以是拼接、相加等方式)。
  4. 输入的分类器中。

大名鼎鼎的word2vec就是一种稠密编码。

将词向量训练好,再放进模型中进行下游任务,预训练就可以这么理解。

3. 组合稠密向量

连续词袋模型:

C B O W ( f 1 , . . . , f k ) = 1 k Σ i = 1 k v ( f i ) CBOW(f_1, ... , f_k) = \frac{1}{k} \Sigma_{i=1}^kv(f_i) CBOW(f1,...,fk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值