在Word2vec中使用到了非相关数据的降采样方法, 其中用到了torch.multinomial方法, 这里记录一下:
multinomial(input, num_samples, replacement=False)
该方法主要有三个参数, 分别是输入的张量, 采样的个数, 是否有重复的数据, 采样的时候是根据输入张量的数值当做权重来进行抽样的, 数值越大, 抽到的可能性越大, 越小抽到的可能性越小, 如果是0 则不会抽到

由案例可知, 输出的是出入的张量的索引值,
当非零数据只有4个时, 要输出5个不重复的数据会报错
而可以重复数据时, 即使去很多值, 也不会取到, 索引值为0的, 因为其权重是0
本文深入探讨了Word2vec模型中非相关数据降采样方法的应用,重点介绍了torch.multinomial函数的工作原理及参数设置,包括输入张量、采样数量和是否允许重复采样。通过实例分析,揭示了权重对采样结果的影响,以及在特定条件下可能出现的错误。
3159

被折叠的 条评论
为什么被折叠?



