练习题 - 基于快速文本标题匹配的知识问答实现(一,基础篇)

本文介绍了基于qdr项目实现文本匹配的知识问答系统,涵盖安装、使用及代码实现。qdr提供了TF-IDF、Okapi BM25和Language Model等方法,适合入门级实践。文章详细讲解了训练、评分过程,包括数据集准备、模型属性、剪枝等,并展示了如何复现计算不同模型的相似度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

该练习题来的很蹊跷,笔者在看entity embeddings的东西,于是看到了16年的这篇文章:Learning Query and Document Relevance from a Web-scale Click Graph,想试试效果,就搜到了qdr这个项目,然后试了试,虽然entity embeddings做的不好,但是好像可以依据里面的文本匹配搞搞问答,于是花了一点时间,因为是cython,速度还不错,可以做个简单的demo,于是有了该篇练习。

该项目qdr:Query-Document Relevance ranking functions,包含了以下几类文本权值表示方式:

  • TF-IDF
  • Okapi BM25
  • Language Model

内嵌Cython 处理速度不错,有一些参数可以自行看着调整:

可能项目底层技术本身在热火朝天的QA中,各种高大上的embedding然后进行DSSM匹配比起来,很low,但很高效/简单,而且项目虽小,五脏俱全,入门极佳~


----- 目 录 -----

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

悟乙己

兄弟,牛啊

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值