XX2Vec算法汇总
转载请注明!
XX2Vec | Embed | In | Sup/Unsup | Algorithms used |
---|---|---|---|---|
Char2Vec | Character | Sentence | Unsupervised | CNN -> LSTM |
Word2Vec | Word | Sentence | Unsupervised | ANN |
GloVe | Word | Sentence | Unsupervised | SGD |
Doc2Vec | Paragraph Vector | Document | Supervised | ANN -> Logistic Regression |
Image2Vec | Image Elements | Image | Unsupervised | DNN |
Video2Vec | Video Elements | Video | Supervised | CNN -> MLP |
强大的word2vec算法激发了许多其他的算法,李在上表中。(对于word2vec的说明,参阅2015Spark峰会我的演讲.)word2vec是对单词分配向量的便捷方式,而且响亮是机器学习的货币。一旦你向量化你的数据,你可以自由应用任何机器学习算法。
word2vec能够通过嵌入的概念关联到向量。在语料库中,一个单词出现在周围单词的上下文,word2vec使用这些同现推断单词间的关系。
所有列在上表的XX2vec算法为X分配向量,X是嵌入在大文本Y中。
但是相似之处到此为止。每个XX2vec算法不仅有专有适合领域,而且使用情形也是不一样的。例如,Doc2Vec是监督学习,其他大多数是非监督学习。Doc2Vec的目标是能够标记文档,word2vec和其他XX2vec算法的目的只是分裂出向量,用于你下一步机器学习和分析。
下面是每个XX2vec算法的简要说明。
Char2Vec
Char2Vec运行于字符集,对拼写错误更加宽容,因此可以更好的分析tweets,用户产品评价等等。
Word2Vec
如上所述。还有一点是:它是不合理有效算法之一。如果你愿意可以碰碰运气。
GloVe
关于将单词嵌入一些数学中,而不是从神经网络中抽取权重并盼望其工作,已经取得了一些成就。GloVe目前是这方面的旗手。模型从一开始支持寻找类似,而不是仅仅在word2vec中碰运气。
Doc2Vec
实际上,Doc2Vec使用word2Vec作为第一步。然后从有利于Word2Vec的单词向量中对每个句子或段落生成复合向量。复合对段落或句子给出总体背景的某种形式,然后复合向量作为额外单词插入到句子或段落开始。段落向量和单词向量使用文档的人工标签,一起训练监督学习分类器。
Image2Vec
word2vec有意使用一个浅神经网络,Image2Vec使用一个深层神经网络,组合从网络多层的权重所得的结果向量。图像袁术可能由这些权重代表,包括图像片段(草,鸟,篱笆等等),或整体图像质量,比如颜色。
Video2Vec
如果图片的机器学习包含高维度,那么视频包含更高的维度。Video2Vec首先通过卷积神经网络做一些初步降维。