1 简介
在数据科学和机器学习领域,余弦相似度(Cosine Similarity)是一个衡量两个非零向量之间角度的度量,常用于评估文本、图像、用户偏好等的相似性。它通过计算两个向量的点积并除以它们的模长乘积来得到,其值的范围在-1到1之间,值越接近1表示向量越相似,值越接近-1表示向量越不相似。
Eigen是一个高性能的C++线性代数库,它提供了一个简单而高效的接口来处理矩阵和向量运算。在本文中,我们将探讨如何利用Eigen库来实现余弦相似度的计算。
2 代码实现
double CosineSimilarity(const std::vector<T> &a, const std::vector<T> &b, bool use_normalize = false) {
if ((a.size() != b.size()) && (a.empty()) || (b.empty())) {
BDLOGGER_ERROR(
"The size of Vector A and B must be equal and greater than 0. But the size of vector A is {}, while the size of vector B is also {}.",
a.size(),
b.size())
return 0;
}
Eigen::Map<const Eigen::VectorXf> eigen_vector_a(a.data(), static_cast<long>(a.size()));
Eigen::Map<const Eigen::VectorXf> eigen_vector_b(b.data(), static_cast<long>(b.size()));
if (use_normalize) {
return eigen_vector_a.dot(eigen_vector_b) / (eigen_vector_a.norm() * eigen_vector_b.norm());
} else {
return eigen_vector_a.dot(eigen_vector_b);
}
}