NLP从输入到输出之单词的处理
这里记录了一些单词的处理方法。会随时更新。
One-hot, 最简单的处理方法
这个是最简单的处理方法。简单来说,就是把每一个单词离散化,占用一个向量的维度。假如一篇文章共有100个不重复的词。那么每个词对应的就是一个100维度的向量 a a a,并且 ∣ a ∣ = 1 |a| = 1 ∣a∣=1.
词嵌入模型,一种考虑词相关性的模型
词嵌入模型同样的也是将一个词映射为一个向量。但是不同的是,他的维度并不是单词的数量。它的核心思想是具有相似语境的词具有相似的意义,是一种无监督的学习方法。
参考链接1:http://ruder.io/word-embeddings-1/ 包含词嵌入模型的入门
参考链接2:https://arxiv.org/pdf/1301.3781v3.pdf 词嵌入模型的论文
这种方法的优点就是减少了维度,并且把稀疏信息转换为了稠密信息。(要知道稀疏信息在深度学习中效果是很差的)
Word2Vect
CBOW
SKIPGRAM
Glove
FastText
ELMo
句子嵌入模型
句子嵌入一个比较经典的应用就是词袋模型。词袋模型简单来说就是进行词的映射。类似于One-Hot,但是维度上的数字不再是是否出现,而是TF/TF-IDF。
Skip-Thought
Quick-Thought
InferSent
先挖个坑,之后再填