电商搜索技术全解析:从文本匹配到对话式搜索
1. 电商搜索核心:文本匹配
电商搜索的核心在于文本匹配,它是连接用户查询与目录中相关产品的重要方法。信息检索(IR)领域致力于为给定搜索查询找到相关产品,这一领域已被研究了数十年。在文本或词汇匹配中,算法会尝试将搜索查询与产品进行匹配,并根据相似度得出相关性。相似度通常基于搜索词频率(TF)和逆文档频率(IDF)向量,以余弦相似度(或类似距离度量)来计算。基本规则是,搜索词在产品标题和描述中出现得越频繁,其相关性就越高,但这些词在所有产品中的出现频率也应较低。
1.1 BM25算法
BM25(Best Matching 25)是电商搜索中常用的文本匹配算法。它考虑了文档长度和词频饱和,结合了词频(TF)和逆文档频率(IDF)。
- 词频(TF) :衡量搜索词在产品细节(如标题和描述)中的出现次数,是搜索词的相对频率。对于搜索词t和产品p,TF是词t在产品p中的频率与产品p中单词总数的比率。搜索词出现次数越高,表明该产品与搜索词的相关性越高。
- 逆文档频率(IDF) :一些搜索查询词可能非常常见,在给定产品描述中出现时不一定表示特定相关性。因此,计算逆文档频率(IDF)来衡量搜索词为产品提供的特定信息程度,它会对常见词进行惩罚。
在Elasticsearch平台中,BM25的实现如下:
qi是第i个查询词,
IDF(qi)是第i个查询词的逆文档频率,
f(qi,D)是第i个查询词在文档D中的出现次数或频率,
fieldLen是字段长度,
avgFieldLen是所有产
电商搜索技术演进全解
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



