pytorch计算余弦相似度需要注意的一个问题

最新推荐文章于 2024-01-07 09:49:04 发布

原创

最新推荐文章于 2024-01-07 09:49:04 发布 · 1w 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch

本文探讨了在PyTorch中使用F.cosine_similarity与scipy库计算余弦相似度的细微差别，并揭示了两者结果不一致的原因。作者通过实例展示了如何理解这种差异并解释了向量相似性度量的正比关系调整。

最近在知乎上看到一篇文章，里面讲到在pytorch里自带有计算余弦相似度的函数F.cosine_similarity（或者torch.cosine_similarity函数）。而在此之前，我计算两个张量的余弦相似度的做法是把张量转换到numpy，然后用scipy库（或者sklearn库）里提供的计算余弦相似度函数来做计算的。不过，在今天我发现使用F.cosine_similarity函数计算两个张量的余弦相似度的输出值与把张量转换到numpy然后用scipy库计算的输出值不一样。示例代码如下：

import torch
import torch.nn.functional as F
import numpy as np
from scipy import spatial

if __name__=='__main__':
	u = torch.rand((1,10))
	v = torch.rand((1,10))
	out = F.cosine_similarity(u, v, dim=1)

	np_u = u.detach().numpy()
	np_v = v.detach().numpy()
	np_out = spatial.distance.cdist(np_u, np_v, metric='cosine')
	
	print(np.mean(out.detach().numpy() - np_out))
	print(np.mean(out.detach().numpy() - (1-np_out)))

最后程序的运行结果是：

0.8206778521071354
2.4365337747411786e-08

可以看到第二个结果的数值表明，差异在小数点后8位的，这是pytorch和numpy里的小数表示不同导致的，这个误差可以忽律不计。从这个程序实验可以看出F.cosine_similarity函数的输出结果与spatial.distance.cdist的输出结果并不想等，它们之间的关系是：相加之和等于1。查看scipy.spat