神经网络
(1)把词进行向量化:只要有了向量就可以用不同的方法来计算相似度,余弦距离,马氏距离
词向量在空间中有意义
用embeddings look up到词库大表中去找到每个词的词向量
词大表是随机初始化的
(2)构建训练数据
2.CBOW模型与SKip-gram模型
3.加入负采样模型(Negative examples)
二
(1)训练word2vec的词向量模型
(市面上有训练好的语料库)
(2)数据清理
(3)batch数据制作
(4)网络训练
(5)可视化展示