作为聊天工具,机器人越来越多地被应用于群聊中。但是群聊场景中往往存在信息繁杂、消息泛滥等情况。聊天机器人如何应对?
作为一款基于大语言模型的知识问答AI助手,茴香豆(HuixiangDou)可被部署在社交软件群聊中,避免无效的“闲聊”,更高效地帮助用户答疑解惑。开源以来,得益于准确检索、低成本部署等优势,茴香豆受到开发者广泛好评,它的设计规则为:
-
无关内容不吭声——拒答
-
明确该答的,直接回复——检索
-
不能违反核心价值观——可靠
为了实现拒答,机器人要计算用户输入和知识库的关联度,这需要模型拥有检索能力。
一般地,文本检索方法分以下类型:
-
稠密检索(dense retrieval):把文本映射到高维空间中,捕捉文本的深层语义
-
多向量检索(multi-vector retrieval):把文本表示成多个向量,每个向量表达文本的不同方面
-
稀疏检索(sparse retreival):依赖文本的关键词和索引,表达成稀疏向量。结果简单且高效
茴香豆之前仅使用稠密检索方法(text2vec)实现拒答。并且基于真实业务数据对比了不同方法和参数的结果,最终 F1 score 达到 75.88(text2vec 如何选择 chunksize 和 splitter)。
https://github.com/InternLM/HuixiangDou
本文介绍如何混用知识图谱和稠密检索,把 F1 进一步提升到 77.57。
以下是目前所有方法对比:
方法 |