很久没有写博客了,也没有写过相关总结。最近,工作中又开始用到了word2vector,正好就做个相关总结。这方面相关的博客有很多,我看过的讲的最清楚的就是@peghoty的博客。
要理解wordvector的原理,有些知识还是需要提前了解一下。
词向量的训练主要有两个具体的模型——CBOW(Continuous Bag-of-Wods Model)模型和Skip-gram(Conti预备知识:http://blog.youkuaiyun.com/itplus/article/details/37969635,
背景知识:http://blog.youkuaiyun.com/itplus/article/details/37969817 ,这里要着重去理解统计语言模型,n-gram模型和神经概率语言模型。
建议看一下预备知识和背景知识。
本博文前半篇幅主要借助@peghoty的博客讲解数学原理,后半篇幅主要讲一些总结和本人对word2vec的一些思考。