LLM 推理新境界:多语言思考的力量

大型语言模型(LLM)正以前所未有的速度改变着我们处理语言信息的方式。然而,一个不可忽视的问题是,这些模型为何在英语任务上表现得如此出色,而在其他语言任务上却显得力不从心?

大家好,我是肆〇柒。我们在日常使用 LLM 进行推理、思考做 Agent 设计的时候,是否有一种“刻板印象”,就是使用英文的 Prompt 来获取更高的生成性能。然而,这几天我看到一篇论文,也许它可以为我们带来一些在设计 Agent 系统时,使用多语言进行混合推理的新思路。这也许可以让 AI Agent 系统的生成性能有更好的提升。这篇论文就是《Could Thinking Multilingually Empower LLM Reasoning?》。今天,就让我们一同探索多语言思考如何成为 LLM 推理能力提升的钥匙。下图直观地展示了多语言相对于单一语言“英语”的优越性。

图片

英语并不总是比其他语言更好。上图是在人类翻译的 GPQA和 MGSM数据集上的评估结果。红色单元格表示高于英语的分数。

研究方法

实验设计:精心搭建的测试舞台

为了精准评估多语言思考对 LLM 推理能力的影响,研究人员精心挑选了两个具有代表性的推理任务数据集:GPQA(Google Proof-Q&A)和 MGSM(Mathematics for Grades 1-8)。GPQA 数据集聚焦于科学推理领域,涵盖了天文学、生物学、化学、物理学等多个科学分支的复杂问题,要求模型具备扎实的科学知识储备以及严谨的逻辑推理能力。MGSM 数据集则专注于数学推理,包含了从小学至初中的各类数学问题,从基础算术运算到复杂代数方程,全面考察模型对数学概念的理解与应用能力。

这两个数据集的强大之处在于,它们不仅内容丰富、覆盖面广,而且支持 17 种不同语言,这为多语言推理实验提供了坚实的语料基础。

图片

对各种比较方法的输入样本的介绍,包括多语言、重复、释义、重复混合和释义混合

这些语言包括英语、中文、西班牙语、法语、德语、俄语、孟加拉语、日语、泰语、斯瓦希里语、阿拉伯语、韩语、塞尔维亚语、捷克语、匈牙利语、越南语和泰米尔语等,几乎涵盖了全球主要语言体系,确保了实验结果的多样性和普适性。

模型选择:各具特色的智能选手

实验选用了三种大型语言模型:Qwen2.5-72B、LLaMA3.1-70B 和 R1-Distill-LLaMA-70B。Qwen2.5-72B 是一位“语言巨匠”,拥有 720 亿参数,经过海量多语言文本训练,能够在不同语言风格间自由切换,生成连贯且富有逻辑的文本,尤其擅长处理复杂的多语言写作任务;LLaMA3.1-70B 则是一位“深度思考者”,具备 700 亿参数,专为多轮对话和复杂推理设计,能够在长时间的对话中保持对上下文的精准把握,逐步剖析问题本质,是推理任务的佼佼者;R1-Distill-LLaMA-70B 是一位“高效能专家”,通过先进的蒸馏技术优化了原始 LLaMA 模型,在保留强大推理能力的同时,大幅提升了运算效率,能够在资源受限的环境中快速响应多语言推理需求。

选择这三种模型的原因在于它们在多语言处理方面的独特优势和互补特性。Qwen2.5-72B 的广泛语言适应性、LLaMA3.1-70B 的深度对话推理能力以及 R1-Distill-LLaMA-70B 的高效性能,使得实验能够从不同角度全面考察多语言思考对 LLM 推理能力的提升效果,为研究提供了多维度的参考依据。

评估指标:精准衡量的标尺

为了科学评估多语言推理性能,研究人员选用了 Acc@k 和 Vote@k 两个核心指标。Acc@k(存在概率)表示在生成的 k 个答案中至少有一个是正确答案的概率。例如,当 k=4 时,Acc@4 能直观反映在 4 个候选答案中存在正确答案的可能性;而当 k=17 时,Acc@17 则能展现多语言推理在大量答案中筛选出正确答案的综合能力。

Vote@k(多数投票准确率)则考察通过简单多数投票机制从 k 个候选答案中选出最终答案的准确性。这一指标关注不同语言答案之间的相互验证和协同效果,例如,当多个语言答案指向同一结论时,投票机制能有效提升最终答案的可信度。

这些指标从不同侧面全面衡量多语言推理的性能,既关注正确答案的存在性,又重视最终答案的选择准确性,为实验结果提供了精准的量化依据。

多语言推理性能优势

GPQA 任务结果:科学推理中的多语言力量

在 GPQA 数据集上,多语言推理展现了惊人的性能提升。以 Qwen2.5-72B 为例,当 k=4 时,多语言方法的 Acc@4 达到了 70.0%,相较于仅使用英语的重复(Repeat)方法的 65.9% 和改写(Paraphrase)方法的 66.7%,分别提升了 4.1% 和 3.3%。这相当于在每 100 个问题中,多语言推理能多提供 4-6 个正确答案,对于大规模知识问答应用来说,这是一个巨大的进步。

当 k=17 时,多语言方法的 Acc@17 进一步飙升至 88.8%,而重复方法仅为 71.2%,改写方法为 71.0%。这意味着在 17 个候选答案中,多语言推理有近九成的概率能确保至少一个正确答案的存在。这种性能提升并非偶然,而是多语言推理在科学推理任务中整合不同语言知识、互补错误的必然结果,为解决复杂科学问题提供了更可靠的保障。

图片

与“重复”(Repeat)和“释义”(Paraphrase)相比,“多语言”(Multilingual)展现了更高的性能上限。在人类翻译的GPQA数据集上,三种模型在“多语言”、“释义”和“重复”设置下的Acc@17得分情况如下

MGSM 任务结果:数学推理中的多语言智慧

在 MGSM 数据集上,多语言推理同样表现卓越。R1-Distill-LLaMA-70B 在多语言方法下的 Acc@4 高达 92.8%,相较于仅使用英语的重复方法的 91.2% 和改写方法的 91.6%,分别提升了 1.6% 和 1.2%。这看起来似乎提升幅度不大,但在数学推理这种对精准度要求极高的任务中,每提升 1% 的准确率都意味着模型能正确解决更多复杂问题,为教育、科研等领域的数学问题求解提供了更强大的支持。

图片

在人类翻译的GPQA数据集上,随着语言数量或候选答案数量的增加,多语言(Multilingual)设置在k = 3之后的Acc@k指标以不断扩大的优势超过了释义(Paraphrase)和重复(Repeat)设置。对于Qwen2.5-72B,多语言、释义和重复设置的最佳Acc@k(共17个)

关键发现

混合语言提升性能:多元智慧的碰撞

混合多种语言进行推理之所以能提升性能,是因为不同语言在不同问题上各具优势。例如,在 GPQA 数据集中,法语在描述生物学概念时可能更为精准,其术语表达和逻辑结构与生物学术语高度契合;而在某些数学问题的表述中,西班牙语的简洁句式和明确的语义指向性,能帮助模型快速抓住问题关键。

这就像一场多国专家的头脑风暴,当一个语言模型在某个问题上陷入困境时,其他语言模型可能凭借其独特的表达方式和文化背景,提供全新的视角和解决方案。例如,在一道涉及几何证明的题目中,法语模型可能从公理体系的严谨性出发,而中文模型则可能从直观的空间想象角度切入,两者结合,最终找到正确的证明路径,大幅提高推理准确率。

图片

充分利用非英语语言可以提高上限。在人类翻译的GPQA数据集上,使用Qwen2.5-72B模型时,所有可能的4候选组合的Acc@4分数分布,以及在不同设置下的情况

少量语言的显著提升:精挑细选的力量

实验发现仅使用 3-4 种语言即可获得显著的性能提升。在 GPQA 任务中,Qwen2.5-72B 模型在使用阿拉伯语、韩语、英语和匈牙利语这四种语言时,其推理性能相较于仅使用英语时提升了近 10 个百分点。这表明,并非语言数量越多越好,关键在于选择合适语言组合。

这就像烹饪中的调味料搭配,只需几种关键香料就能调出美味佳肴。在实际应用中,这意味着我们无需引入大量语言组合,只需精心挑选几种与任务高度相关的语言,就能让 LLM 的推理能力实现质的飞跃,既降低了计算资源消耗,又提高了推理效率。

图片

多语言上界对语言组合的选择具有鲁棒性。在人类翻译的GPQA数据集的多语言设置中,最佳、最差和随机语言组合(组合)的平均准确率(Acc)和Acc@4。尽管Acc会有所变化,但Acc@k的增益仍然很高

语言组合的鲁棒性:稳定可靠的性能表现

即使随机选择语言组合,平均性能也与最优组合相近。在 GPQA 数据集上,随机选择 4 种语言进行多语言推理时,模型的 Acc@4 平均值为 70.0%,而最优组合的 Acc@4 为 74.3%,两者差距仅为 4.3%。这表明多语言推理的性能提升对语言选择具有一定的鲁棒性。

这好比在一个实力均衡的团队中,无论怎样挑选队员,都能保持一定的战斗力。例如,在处理一道涉及化学反应的题目时,随机选择的四种语言模型可能在初始阶段对某些反应细节的描述存在差异,但随着推理过程的推进,它们能相互补充,最终在多数投票机制下选出正确答案。这种鲁棒性赋予了多语言推理方法更高的灵活性和可行性,让我们在面对不同语言资源和应用场景时,能够更加从容地选择语言组合,而不必担心因语言选择不当而影响推理效果。

图片

多语言上限不受问题翻译质量的影响。在多语言环境下,对人类翻译和机器翻译的GPQA数据集的所有可能的4种语言组合的Acc@4进行了比较。数值和误差条表示平均值、最大值和最小值分数。

翻译质量的影响:机器翻译的崛起

在人类翻译和机器翻译数据集上的多语言推理性能对比实验中,两者之间的差异微乎其微。以 Qwen2.5-72B 模型为例,在 GPQA 数据集上,使用人类翻译数据时多语言方法的 Acc@4 为 70.0%,而使用机器翻译数据时 Acc@4 为 69.7%,两者几乎持平。

这就好比在一场接力赛中,无论是专业翻译选手还是机器翻译助手,都能将接力棒顺利传递下去,激发多语言推理的潜力。机器翻译的高效性和可扩展性使其成为获取多语言数据的有力工具,而实验结果证明了使用机器翻译数据也能有效提升推理性能。这为大规模多语言应用场景带来了福音,尤其是在需要快速处理海量多语言文本的场景中,机器翻译与多语言推理的结合将发挥巨大作用。

现有答案选择策略的局限性

多数投票法的不足:语言数量增加的陷阱

多数投票法在多语言推理中的表现并不尽如人意。随着语言数量的增加,投票性能并未稳定增长,反而可能出现下降。在 GPQA 数据集上,当语言数量从 4 增加到 17 时,Qwen2.5-72B 模型的 Vote@k 值从 53.0% 下降至 48.0%。这是因为多语言优势往往只由少数语言带来,而多数错误答案可能像杂草一样干扰正确答案的胜出。

此外,投票准确率对最优语言组合较为敏感。在最优语言组合下,多语言投票准确率能达到 54.2%,而随机语言组合的准确率仅为 51.7%,相差 2.5 个百分点。这表明,若语言组合选择不当,投票准确率可能低于其他方法,限制了多语言推理性能的进一步提升。

图片

投票表现并不会随着候选人数的增加而提高。在GPQA数据集上,随着语言种类或候选人数量的增加,Qwen2.5-72B模型在释义(Paraphrase)、重复(Repeat)和多语言(Multilingual,包括人类翻译的多语言版本Multilingual-h和机器翻译的多语言版本Multilingual-m)任务中的最佳Vote@k(共17个候选)表现

基于提示词的选择方法的局限:模型的“倔强”表现

基于提示词的选择方法,如语言约束、英语允许、问题翻译等设置,在不同模型上的效果极不稳定。例如,在提示模型仅使用非英语语言进行推理时,Qwen2.5-72B 模型在 GPQA 数据集上的 Acc@4 仅为 59.2%,远低于未进行语言约束时的 70.0%。这表明模型并未完全按照提示进行语言选择和答案生成,而是根据自身对问题的理解和语言偏好,选择更熟悉的语言进行推理。

这种不稳定性使得基于提示的选择方法难以在多语言推理中发挥预期效果。就像给一个擅长多国语言的人下达仅使用特定外语交流的指令,他仍可能因习惯或对某些语言的熟悉程度,不自觉地切换到其他语言,导致无法准确筛选出最优答案。

图片

不同的基于提示词的设置在性能上几乎没有差异,且自我翻译并不是关键设置。在英语GPQA数据集上,基于提示词的选择方法的Acc@4和Vote@4性能与Repeat和Paraphrase的随机4项性能进行了比较。其中,LC、EA和QT分别代表语言限制、英语许可和问题翻译

LLM 作为评判者的缺陷:评判者的“偏见”困境

以 LLM 作为评判者来选择答案的策略也存在明显缺陷。除 R1-Distill-LLaMA-70B 外,其他模型的 LLM 作为评判者的表现并不理想。在 GPQA 数据集上,Qwen2.5-72B 模型的 LLM 评判准确率仅为 48.0%,低于简单的多数投票法(53.0%)。这就像让一个对多语言不太熟悉的人来评判不同语言作品的优劣,容易出现误判。

进一步分析发现,模型在评判过程中存在语言偏见。例如,当候选答案中存在英语和非英语答案时,模型更倾向于选择英语答案,即使非英语答案可能更正确。这种偏见使得 LLM 作为评判者的策略难以充分发挥多语言推理的优势,还需要进一步优化和改进。

图片

作为Judge的大型语言模型(LLM)仅在使用R1-Distill-LLaMA-70B时表现出多语言优势,但这种表现并不令人满意。在人类翻译(Multilingual-h)和机器翻译(Multilingual-m)的GPQA数据集上,作为Judge的大型语言模型的表现如下。星号(*)表示我们在每种设置中仅包括4次运行,由于LLM评判的成本较高,因此仅使用了针对该数据集的最佳语言组合,所以结果与前面表格中的结果有所不同

多语言推理优势的原因分析

语言与问题难度的关联:精准匹配的钥匙

不同难度问题与不同语言性能之间存在着微妙的关联。对于不同难度级别的问题,某些语言可能更适合模型进行推理。在 GPQA 数据集中,简单问题(如基础科学常识)在英语上表现较好,因为英语在科学文献中占据主导地位,模型在英语科学文本训练中接触了大量简单问题的表述;而对于复杂问题(如涉及多学科交叉的推理问题),日语或韩语可能更能帮助模型挖掘出正确答案,因为这些语言在表达复杂逻辑和精细概念时具有独特优势。

这种语言与问题难度的匹配关系,使得多语言推理能够根据不同问题的难度,动态选择最适合的语言进行推理,从而提高整体准确率。例如,面对一道涉及量子力学和哲学思辨的复杂科学问题,日语模型可能凭借其对复杂逻辑的严谨表达,提供更清晰的推理路径,而英语模型则可能在简单问题上快速给出正确答案,两者结合,为多语言推理的性能提升提供了有力支持。

图片

语言在一定程度上与难度水平相匹配。在人类翻译的 GPQA 数据集中,每种语言的准确率按难度水平划分,这些语言来自表现最佳的语言组合(最佳语言组合)。每个难度水平都有一种或多种优势语言

关键优势语言的存在:团队中的中流砥柱

通过少数 - 多数重叠标准识别出的各模型在不同任务中的关键优势语言,以及不同模型之间的跨模型关键优势语言,进一步揭示了多语言推理优势的根源。例如,在 GPQA 任务中,对于 Qwen2.5-72B 模型,日语、英语、法语和匈牙利语是其关键优势语言;而 LLaMA3.1-70B 模型的关键优势语言则为匈牙利语、英语、法语、俄语和德语。这些关键优势语言在多语言推理中对其他语言的错误具有补偿作用,就像在团队中,关键成员能够在关键时刻弥补其他成员的失误,确保任务的成功。

跨模型的关键优势语言(如英语和法语在 GPQA 任务中的普遍优势)表明,某些语言在特定推理任务中具有更广泛的适用性和稳定性。它们的存在使得多语言推理能够在多种语言中筛选出最优答案,从而显著提高 Acc@k 指标,为多语言推理的广泛应用奠定了坚实基础。例如,在处理一道涉及历史事件的科学推理题时,英语模型可能凭借丰富的历史文献资料提供背景信息,而法语模型则可能从独特的文化视角补充关键细节,两者结合,最终得出正确结论。

图片

每个模型都有一些关键优势语言,这些语言通常会在两项任务中弥补其他语言的错误,并且这些优势语言在不同模型之间存在重叠。通过少数语言与多数语言的重叠来筛选出在正确回答问题时领先于少数或多数测试语言的关键优势语言(优势语言)

讨论与总结

不同的语言训练数据的不同,势必造成各语言的知识偏好的不同,而模型在跨语言推理时知识迁移并没有那么丝滑。所以,这篇论文的研究在工程落地上,是具备现实参考价值的。 

多语言推理的潜力与价值:开启智能应用新方式

综合论文中的实验结果和分析,我们可以清晰地看到,多语言推理在提升 LLM 推理能力方面具有巨大的潜力。它能够突破传统仅使用英语推理的局限,为 LLM 在多语言环境中的应用开辟了新的道路。通过合理的语言组合和优化方法,多语言推理可以有效挖掘不同语言的优势,提高推理准确率。

在跨语言知识问答领域,多语言推理能够整合全球不同语言的知识资源,为用户提供了一个全面、精准的答案。例如,当用户询问关于中国传统医学与西方医学结合治疗某一疾病的知识时,多语言推理模型可以同时检索中文医学古籍和英文现代医学研究,融合两种医学体系的智慧,给出具有创新性的治疗方案建议。在国际教育领域,多语言推理能够为不同语言背景的学生提供个性化的学习辅导,帮助他们更好地理解课程内容,跨越语言障碍,实现知识的全球共享。

基于现有研究中发现的多语言推理优势和面临的问题,未来我们也许可以尝试更有效的答案选择策略,例如开发基于深度学习的智能选择算法,让模型能够自动学习如何从多种语言答案中筛选出最优答案。这种算法可以分析不同语言答案的语义相似性、逻辑连贯性以及与问题的相关性,逐步构建智能筛选模型,提高答案选择的准确性。

还可以尝试通过分析不同语言在不同任务中的表现,制定出更具针对性的语言组合策略,提高投票性能的稳定性和准确性。例如,可以建立语言性能数据库,记录每种语言在各类推理任务中的历史表现,根据具体任务需求,快速匹配出最佳语言组合。

总之次论文为我们展示了多语言推理在 LLM 中的显著性能提升潜力。尽管现有答案选择策略存在局限性,但通过合理的语言组合和优化方法,我们仍可有效挖掘多语言推理的优势。这一研究为 LLM 在多语言推理领域的发展提供了新的思路和方法。当我们在设计多 Agent 系统的时候,这也为我们提升 Agent 系统的推理性能,提供了新思路。

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。


因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

四、AI大模型商业化落地方案

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值