参考链接
FastText模型
- FastText模型是在skip-gram模型基础上提出来的,所有首需要回顾一下skip-gram模型,可以参考连接: skip-gram模型
- skip-gram模型图:
- 在skip-gram模型中对词汇表中每个词 w w w都对应着两个向量:
- 输人向量 u w u_w uw:是输入层到隐藏层层连接矩阵 W ∈ R V × N W∈R^{V×N} W∈RV×N的行向量
- 输出向量 v t v_t vt:是隐藏层到输出层的连接矩阵 W ′ ∈ R N × V W'∈R^{N×V} W′∈RN×V的列向量
- V V V是词汇表的大小,N是词向量的维度
FastText模型与Skip-gram模型相同部分
- FastTex模型与skip-gram模型隐藏层到输出层部分(即后半部分) 是一样的结构,都是一个将隐藏层状态向量 h t h_t ht输出到 s o f t m a x softmax softmax层得到词汇表各词的预测概率。
- 训练目标是一样的都是用当前词 w t w_t wt预测其上下文词集 C t C_t Ct
- s o f t m a x softmax softmax层也都是使用负采样 s o f t m a x softmax softmax层或者分层 s o f t m a x softmax softmax层进行优化。
FastText模型与Skip-gram模型不同部分
- FastTex模型与skip-gram模型区别在于:输出层到隐藏层部分(前部),即得到隐藏层状态向量 h t h_t ht方式:
- skip-gram模型:将当前词 w t w_t wt的one-hot编码与连接矩阵 W ∈ R V × N W∈R^{V×N} W∈RV×N相乘,得到词 w t w_t wt的输入向量 u w t u_{w_t } uwt</
FastText模型详解

FastText模型基于skip-gram模型改进,引入字符级n-grams,能为未在训练集出现的词生成词向量。通过将词和其n-grams的one-hot编码相加并乘以连接矩阵,得到词向量。
最低0.47元/天 解锁文章

1304

被折叠的 条评论
为什么被折叠?



