善用知识图谱,问答助手只“解惑”,不“闲聊”

作为聊天工具,机器人越来越多地被应用于群聊中。但是群聊场景中往往存在信息繁杂、消息泛滥等情况。聊天机器人如何应对?

作为一款基于大语言模型的知识问答AI助手,茴香豆(HuixiangDou)可被部署在社交软件群聊中,避免无效的“闲聊”,更高效地帮助用户答疑解惑。开源以来,得益于准确检索、低成本部署等优势,茴香豆受到开发者广泛好评,它的设计规则为:

  • 无关内容不吭声——拒答

  • 明确该答的,直接回复——检索

  • 不能违反核心价值观——可靠

为了实现拒答,机器人要计算用户输入和知识库的关联度,这需要模型拥有检索能力。

一般地,文本检索方法分以下类型:

  • 稠密检索(dense retrieval):把文本映射到高维空间中,捕捉文本的深层语义

  • 多向量检索(multi-vector retrieval):把文本表示成多个向量,每个向量表达文本的不同方面

  • 稀疏检索(sparse retreival):依赖文本的关键词和索引,表达成稀疏向量。结果简单且高效

茴香豆之前仅使用稠密检索方法(text2vec)实现拒答。并且基于真实业务数据对比了不同方法和参数的结果,最终 F1 score 达到 75.88(text2vec 如何选择 chunksize 和 splitter)。

https://github.com/InternLM/HuixiangDou

本文介绍如何混用知识图谱和稠密检索,把 F1 进一步提升到 77.57。

以下是目前所有方法对比:

方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值