word2vec使用注意点

本文介绍了使用Word2Vec训练文档单词向量时应注意的关键点,包括停用词处理、低频词剔除、向量维度设置及不同采样方法的效果对比。

用word2vec将文档中的单词训练成向量时要注意的点:

1. 不需要去除停用词。目前word2vec较好的方法是Negative Sampling,论文中提出该方法为了应对停用词,会进行subsampling,具体可见论文。

2. 需要去除语料库中出现次数过少的词。

3. 向量维度通常设50-200维。

4. 论文实验中显示,负采样次数取15次时效果略好于5次;Negative Sampling方法比哈夫曼树的方法准确度高。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值