7、电商搜索技术全解析:从文本匹配到对话式搜索

电商搜索技术演进全解

电商搜索技术全解析:从文本匹配到对话式搜索

1. 电商搜索核心:文本匹配

电商搜索的核心在于文本匹配,它是连接用户查询与目录中相关产品的重要方法。信息检索(IR)领域致力于为给定搜索查询找到相关产品,这一领域已被研究了数十年。在文本或词汇匹配中,算法会尝试将搜索查询与产品进行匹配,并根据相似度得出相关性。相似度通常基于搜索词频率(TF)和逆文档频率(IDF)向量,以余弦相似度(或类似距离度量)来计算。基本规则是,搜索词在产品标题和描述中出现得越频繁,其相关性就越高,但这些词在所有产品中的出现频率也应较低。

1.1 BM25算法

BM25(Best Matching 25)是电商搜索中常用的文本匹配算法。它考虑了文档长度和词频饱和,结合了词频(TF)和逆文档频率(IDF)。
- 词频(TF) :衡量搜索词在产品细节(如标题和描述)中的出现次数,是搜索词的相对频率。对于搜索词t和产品p,TF是词t在产品p中的频率与产品p中单词总数的比率。搜索词出现次数越高,表明该产品与搜索词的相关性越高。
- 逆文档频率(IDF) :一些搜索查询词可能非常常见,在给定产品描述中出现时不一定表示特定相关性。因此,计算逆文档频率(IDF)来衡量搜索词为产品提供的特定信息程度,它会对常见词进行惩罚。

在Elasticsearch平台中,BM25的实现如下:
qi是第i个查询词,
IDF(qi)是第i个查询词的逆文档频率,
f(qi,D)是第i个查询词在文档D中的出现次数或频率,
fieldLen是字段长度,
avgFieldLen是所有产

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值