16、基于词嵌入的搜索结果排序

最新推荐文章于 2025-11-08 10:00:47 发布

gamma

最新推荐文章于 2025-11-08 10:00:47 发布

阅读量15

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习重塑搜索文章标签：词嵌入搜索排序 TF-IDF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gamma/article/details/154622041

深度学习重塑搜索专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于词嵌入的搜索结果排序

1. 向量空间模型与 TF-IDF

在搜索结果排序中，查询向量与文档之间的相似度通过两者向量的夹角来评估。夹角越小，两个向量越相似。例如，对于查询向量和三个文档向量，计算得到的相似度分数如下：
| 文档 | 相似度分数 |
| — | — |
| doc1 | 0.51 |
| doc2 | 0.38 |
| doc3 | 0.17 |

词袋模型存在一个问题，即向量的大小会随着文档中不同词汇的数量线性增长。而像 word2vec 生成的词向量具有固定大小，不会随搜索引擎中词汇数量的增加而增长，因此使用它们时资源消耗更低，并且能更好地捕捉词汇语义。

尽管存在这些局限性，向量空间模型（VSM）和 TF-IDF 在许多生产系统中仍经常被使用，并取得了不错的效果。

2. 在 Lucene 中对文档进行排序

在 Lucene 中，Similarity API 是排序函数的基础。Lucene 自带了一些信息检索模型，如结合 TF-IDF 的 VSM（直到版本 5 都是默认使用的）、Okapi BM25、随机发散模型、语言模型等。在索引和搜索时都需要设置相似度。在 Lucene 7 中，VSM + TF-IDF 相似度为 ClassicSimilarity。

索引时设置相似度的代码如下 ：

IndexWriterConfig config = new IndexWriterConfig();
config.setSimilarity(new

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。