LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS

本文是LLM系列文章,针对《LONG-FORM FACTUALITY IN LARGE LANGUAGE MODELS》的翻译。

摘要

大型语言模型(LLM)在响应开放式主题的事实查询提示时,通常会生成包含事实错误的内容。为了在开放域中对模型的长期事实性进行基准测试,我们首先使用GPT-4生成LongFact,这是一个由跨越38个主题的数千个问题组成的提示集。然后,我们提出LLM代理可以通过一种我们称之为搜索增强事实评估器(SAFE)的方法用作长期事实性的自动评估器。SAFE利用LLM将长形式的响应分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,该推理过程包括向谷歌搜索发送搜索查询并确定搜索结果是否支持某个事实。此外,我们建议将F1分数扩展为长形式真实性的聚合度量。为此,我们平衡响应中支持的事实的百分比(精度)与提供的事实相对于表示用户首选响应长度(回忆)的超参数的百分比。
从经验上讲,我们证明LLM代理可以胜过众包人工注释器——在一组约16k个个体事实上,SAFE 72%的时间与众包人工标注器一致,在100个不一致案例的随机子集上,SAFE%76的时间获胜。同时,SAFE比人工注释器便宜20多倍。我们还在LongFact上对四个模型族(Gemini、GPT、Claude和PaLM-2)的13个语言模型进行了基准测试,发现较大的语言模型通常可以实现更好的长形式真实性。LongFact、SAFE和所有实验代码都可以在https://github.com/google-deepmind/long-form-factuality上找到。

1 引言

<

### OpenFact 及其在事实增强型开放知识提取中的应用 #### 定义与背景 OpenFact 是一种专注于提升数据真实性的框架或库,在信息技术领域中被广泛应用于开放式知识抽取任务。它通过引入额外的事实验证机制来提高所提取信息的质量和可靠性[^1]。 #### 工作原理 该框架的核心在于结合自然语言处理技术和机器学习算法,以实现从非结构化文本中自动识别并验证实体关系的能力。具体而言,OpenFact 使用预训练的语言模型作为基础架构,并在此之上构建了一个多层次的事实校验模块,用于评估每条候选三元组(subject-predicate-object)的真实性得分[^2]。 以下是其实现过程的一个简化版本代码示例: ```python from transformers import pipeline, AutoTokenizer, TFAutoModelForSequenceClassification def validate_fact(text_pair): tokenizer = AutoTokenizer.from_pretrained("fact-checking-model") model = TFAutoModelForSequenceClassification.from_pretrained("fact-checking-model") inputs = tokenizer(list(zip(*text_pair)), return_tensors="tf", padding=True, truncation=True) outputs = model(**inputs) predictions = tf.nn.softmax(outputs.logits).numpy() return predictions.argmax(axis=-1) # Return binary labels indicating veracity. ``` 此脚本展示了如何利用 Hugging Face 的 `transformers` 库加载预先训练好的事实核查模型来进行简单的二分类预测操作——即判断给定陈述是否可信[^3]。 #### 技术优势 相比传统方法仅依赖于模式匹配或者浅层特征工程的方式,采用深度神经网络驱动的 OpenFact 能够更有效地捕捉复杂语境下的隐含意义关联,从而显著改善最终输出结果的一致性和准确性水平[^4]。 然而值得注意的是,尽管此类技术已经取得了长足进步,但在面对高度歧义或多模态输入场景时仍可能存在一定局限性;因此持续优化现有解决方案以及探索新兴替代方案将是未来研究方向之一[^5]。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值