论文题目:FRESHLLMS:REFRESHING LARGE LANGUAGE MODELS WITH SEARCH ENGINE AUGMENTATION
论文地址:https://arxiv.org/pdf/2310.03214.pdf
论文由Google、University of Massachusetts Amherst、OpenAI联合发布。
大部分大语言模型只会训练一次,不会被频繁的更新,训练用到的知识会慢慢过时,所以它无法适应变化的世界。论文作者提出了动态问答的基准测试,称为FRESHQA,并且提出了一种简单的解决问题的方法,FRESHPROMPT。
FRESHQA收集的问题根据难度可以分别单跳和多跳两种,两种问题的区别在于是否需要多级的推理。而根据答案的性质问题可以分为1.永远不变;2.缓慢变化;3.快速变化;4.虚假前提。

测试集的评估模式也分别两种:1.RELAXED,它仅衡量主要答案是否正确; 2.STRICT,它衡量响应中的所有声明是否是事实和最新的(即没有幻觉)。
FRESHPROMPT 是一种简单而有效的方法,对于给定的问题,它通过提取所有最新和相关的信息(包括来自搜索用户也询问的相关问题的知识)来利用搜索引擎,并使用少样本上下文学习教模型推理检索到的证据并找出正确的答案。
&n

Google、UMass Amherst和OpenAI联合发布论文,提出动态问答基准测试FRESHQA及解决方法FRESHPROMPT。FRESHQA按难度和答案性质分类问题,评估模式有两种。FRESHPROMPT利用搜索引擎获取实时信息,经处理后辅助模型推理。实验表明,它能提升模型回答动态问题的能力,且效果优于其他方法。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



