小白如何快速训练词向量

最新推荐文章于 2025-09-29 23:38:15 发布

原创

最新推荐文章于 2025-09-29 23:38:15 发布 · 2.5k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#自然语言处理 #python

但凡谈及自然语言处理，我们都会想到词向量，那么怎么快速地获得词向量呢？最简单的方法就是word2vec。本文不深究word2vec的原理，网上很多细致深入的解读，大家可以自行搜索。今天总结一下如何快速训练自己的词向量，作为参考个人的手册。

1、语料

丰富、高质量的语料是词向量成功第一步。

前两天学到一个名词，叫自监督学习，word2vec就是其中一种。自己监督自己，很容受到噪声的干扰，如果数据不干净，结果也会谬以千里。

word2vec虽然不是统计算法，但是训练过程中很大程度上在理解上下文，在理解共现关系。丰富的语料，才能保证对词语正确的理解。很多低频词由于训练不足，词向量基本是随机初始化的，导致在计算词语top-n相似词语的时候出现一些匪夷所思的噪声。

所以请一定多获取数据，多思考怎么把数据过滤得更干净。

2、分词

词向量，词向量，故名思义，首先要有词语，使用分词工具把语料分割为词语序列。

中文分词哪家强？常用的有jieba、ltp（哈工大）、thulac（清华）…这几种分词工具各有优劣。不过对于具体领域的任务，我们通常通过加载额外的领域词典，来对分词工具进行补充。这里可能还涉及领域内的新词发现，不展开了。

如果你觉得这些工具都是垃圾，可以自行训练分词模型，常用的有动态规划，隐马尔可夫，以及深度学习分词算法。

3、构建词向量模型

gensim正式登场，其实可以直接使用word2vec库，但是个人觉得gensim库功能更全面，推荐使用。

读取语料，如果你的数据很少，那就简单，把数据全部读到内存中。存到一个二位数组里，[[w1,w2,…], …], 里面的数组表述文本，外面表示所有文本的集合。但是当你的语料很大时，建议逐步加载。官方建议定义一个数据读取的类：

class MyCorpus(object):
    """An interator that yields

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

忘记开挂的程序猿 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。