22、信息检索与聊天机器人开发实践

信息检索与聊天机器人开发实践

1. 数据处理与评估

在完成相关操作后,可点击 “Edit Data” 返回项目页面,接着点击 “Export Data” 导出数据,支持 JSON lines 或 CSV 格式。不过,由于标注足够多的查询 - 文档对以改善排名需要时间,这里暂不使用该数据。

1.1 测试与评估解决方案

创建索引并了解如何使用 doccano 进行标注后,就需要对解决方案进行评估。此场景与多数应用不同,该工具用于组织和检索文档,用户即客户。

1.1.1 业务指标

为自己构建应用时,“业务” 指标意义不大,关键是对自己的产品满意,所以应直接衡量数据模型。

1.1.2 以模型为中心的指标

衡量索引时,有多种可能的指标,主要追求最佳排名。一种衡量排名的方法是召回率和精确率,类似于二分类问题,但当返回大量文档时,它们无法反映文档的排序情况,因此需要排名指标。其中,Normalized Discounted Cumulative Gain (NDCG) 是最流行的指标之一。
- 增益定义 :在该场景中,增益指文本中的信息,用文档的相关性表示。
- 累积增益 :是所选截止点之前的增益之和。
- 折扣累积增益 :为了考虑排名,对增益进行折扣处理,使用排名的对数,使列表靠前的项目与靠后的项目区分更明显。
- 归一化 :将指标归一化到 0 到 1 之间,需确定理想的折扣累积增益,若无法直接计算,可假设截止点

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值