word2vec你可能不知道的秘密

本文探讨了word2vec训练结果差异的主要因素,包括语料库的场景和性质,以及算法参数如子采样、语言模型、窗口大小等。同时,介绍了评估word2vec模型好坏的方法,如词聚类、cos相关性和类比任务,并提到了相关资源和工具的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 这里并不是介绍word2vec的原理,因为原理介绍方面的资料网上多的是:推荐两个我认为很有价值的

http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

http://www.cnblogs.com/peghoty/p/3857839.html

  1. 首先word2vec训练结果的差异主要来自什么因素?
    (1)语料影响最大:
    语料的场景,比如微博的语料和新闻语料训练的结果差别很大。因为微博属于个人发帖,比较随意。而新闻比较官方正式,另外新闻句式相对复杂。经过训练对比:微博这种短文,训练的相似词更多是同级别的相关词。比如 深圳 相关的是 广州 。而用新闻语料,训练得到 深圳 相关的词 更多是与 深圳 有关联的词,比如 深圳大学。
    实际发现在微博,违法色情的词训练的比较好,因为黑产用这种渠道来推广;而在评论,骂人的词训练的比较好;在新闻,则是常见的正规的词训练的比较好。下面分别看一下‘评论 垃圾的相关词’跟‘新闻 垃圾的相关词’
    评论 垃圾 的相关词
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值