[#0x002C] IR经典模型之向量模型

部署运行你感兴趣的模型镜像

1. 向量模型同样将dj和qcc同级计算,采用的同级方式是扩展qcc到t维

 

2. 相似度计算

  • 依旧有dj = {w1j, w2j, …, wtj},但这里的wij不再是二元值,而是一个加权值;同样定义qcc = {w1, w2, ..., wt},这里的wi也是一个加权值
  • sim(dj, qcc) = dj • qcc / (|dj| * |qcc|), dj • qcc为向量点乘运算
  • 一次检索的过程是根据qcc来和所有dj ∈ D(文档集合),计算出一组sim值,然后依据sim值来排序D,返回前排部分文档(可自定义阈值,比如返回sim值大于0.5的或是D排序后的前30%文档)
  • |dj|² = ∑i (wij²);|qcc|² = ∑i (wi²),对于一次检索而言,|qcc|值对排序不会产生任何影响;dj • qcc =  ∑i (wij * wi)
  • term freqency(词频):表示词ki在文档dj中出现的频率,TFij = Nij / ∑t Ntj,Nij为词ki在文档dj中出现的次数,∑t Ntj为所有词在文档dj中出现的次数和,即dj包含的总词数。若词ki的TF值越高,则说明ki越能代表文档dj
  • inverse doucument frequency(逆向文档频率):设|Di| = {d|d∈D且ki∈d},|Di|值即表示文档集D中有这么多篇文档包含了词ki;IDFi = log(|D| / |Di|),|D|为文档集中的文档个数。若IDFi值越大,说明D中包含ki的文档越少,从而ki用来区分D中不同文档的能力也就越大。
  • wij = TFij * IDFi
  • wi = (½ + ½ * TFij) * IDFi

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值