Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem

本文研究了大型语言模型(LLM)在处理不可答数学问题时的幻觉现象,构建了UMWP数据集并提出了一种新的评估方法。实验涉及多个LLM,显示上下文学习和强化学习有助于减少幻觉。代码和数据可在GitHub上获取。

本文是LLM系列文章,针对《Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem》的翻译。

基于不可回答数学单词问题的大型语言模型中的基准推理

摘要

大型语言模型(LLM)在各种自然语言处理(NLP)任务中是非常有效的。然而,他们很容易在被称为幻觉的模糊环境中产生不可靠的猜测。本文基于无法回答的数学单词问题,提出了一种评估问答中LLM幻觉的新方法。为了支持这种方法,我们创新性地开发了一个名为“无法回答的数学单词问题”(UMWP)的数据集,该数据集包括五类5200个问题。我们开发了一种结合文本相似性和数学表达式检测的评估方法,以确定LLM是否认为问题是无法回答的。对31个LLM(包括GPT-3、InstructGPT、LLaMA和Claude)进行的广泛实验结果表明,上下文学习和强化学习与人类反馈(RLHF)训练显著增强了模型避免幻觉的能力。我们证明,利用MWP是评估幻觉的可靠和有效的方法。我们的代码和数据在https://github.com/Yuki-Asuuna/UMWP上可用。

1 引言

2 相关工作

3 数据集构建

4 评估方法

5 实验

6 结论

### 关于论文《HUMAN SIMULACRA: BENCHMARKING THE PERSONIFICATION OF LARGE LANGUAGE MODELS》的复现代码 目前,关于论文《HUMAN SIMULACRA: BENCHMARKING THE PERSONIFICATION OF LARGE LANGUAGE MODELS》的具体复现代码或官方GitHub仓库尚未被明确公开。然而,可以通过以下方法尝试找到相关实现代码或类似的项目: 1. **官方GitHub仓库**:通常,学术论文的作者会在其个人主页或机构主页上提供论文相关的代码链接。建议访问论文中列出的作者主页或参考文献中的相关链接[^4]。 2. **社区实现**:即使官方没有发布代码,开源社区可能会有基于该论文的第三方实现。可以在GitHub上搜索关键词如“Human Simulacra benchmarking personification large language models”或“LLM personification benchmark”。例如,GitHub上的搜索功能可以帮助定位类似的项目[^5]。 3. **相关技术栈**:根据论文内容,可以推测其实现可能依赖于大型语言模型(LLM)和生成式架构。以下是可能的技术栈: - **语言模型框架**:如Hugging Face Transformers、DeepSpeed等。 - **数据处理工具**:Pandas、NumPy等。 - **模型训练与推理**:PyTorch、TensorFlow等。 以下是一个可能的代码示例,展示如何加载预训练的语言模型并进行微调: ```python from transformers import AutoTokenizer, AutoModelForCausalLM # 加载预训练模型和分词器 model_name = "gpt2" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) # 示例输入 input_text = "The human simulacra benchmark evaluates the personification of" inputs = tokenizer(input_text, return_tensors="pt") # 模型生成 outputs = model.generate(inputs["input_ids"], max_length=50, do_sample=True) generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_text) ``` ### 注意事项 - 如果需要复现论文中的具体实验结果,可能需要获取原始数据集和详细的实验配置。这通常需要联系论文作者或查阅补充材料。 - 由于该领域的研究涉及大量计算资源,建议使用云平台(如AWS、Google Cloud、Azure)或本地高性能计算设备进行实验。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值