大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
Humanity’s Last Exam
【要点】:论文介绍了Humanity’s Last Exam(HLE),一个跨越多个学科领域的高端闭卷学术基准测试,旨在评估大型语言模型在接近人类知识前沿的能力,并揭示了现有模型与人类专家在闭卷学术问题上的能力差距。
【方法】:作者通过集合全球学科专家,创建了包含数学、人文科学和自然科学等多个学科领域的3000个问题,这些问题均为选择题和简答题,适合自动化评分,并且每个问题都有明确且易于验证的答案,不能通过快速网络检索得到。
【实验】:作者使用HLE对最先进的大型语言模型进行了测试,实验结果显示这些模型在HLE上的准确度和校准度均较低,相关数据集名称未在摘要中提及,但可通过https://lastexam.ai 公开访问
【链接】:https://www.aminer.cn/pub/6796f3ffae8580e7ffc22200
Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
【要点】:本研究首次全面探讨了链式思维(CoT)推理在增强自回归图像生成中的潜在作用,并提出了两种专门化的奖励模型PARM和PARM++,有效提升了图像生成性能。
【方法】:研究采用了链式思维推理的三种技术:扩展测试时的计算规模以进行验证,通过直接偏好优化(DPO)使模型偏好与人类偏好对齐,并将这些技术相结合以产生互补效应。
【实验】:通过在Show-o基线模型上应用这些推理策略,研究实现了在GenEval基准上显著提高+24的性能,超越了Stable Diffusion 3模型+15的性能。实验使用的数据集未在摘要中明确指出,但相关代码和模型已发布于https://github.com/ZiyuGuo99/Image-Generation-CoT。
【链接】:https://www.aminer.cn/pub/6792ff7cae8580e7ffd00136
LIMO: Less is More for Reasoning
【要点】:本研究提出了LIMO模型,挑战了传统认识,证明了在仅有817个精心挑选的训练样本的情况下,模型能够在数学推理任务上取得前所未有的性能,提出Less-Is-More推理假设。
【方法】:通过精心编排的认知过程演示,使用远少于传统方法的训练数据,激发基础模型中的复杂推理能力。
【实验】:LIMO在仅有的817个训练样本上实现了57.1%的性能,相比之前SFT-based模型所需的超过100,000个样本,减少了99.99%的数据需求,同时在10个不同的基准测试上平均提高了40.5%,优于那些在多100倍数据上训练的模型。实验结果支持了Less-Is-More推理假设。数据集和模型已开源发布于GitHub。
【链接】:https://www.aminer.cn/pub/67a42517ae8580e7ff580371
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models
【要点】:本文提出了OmniHuman框架,通过混合运动相关条件进行训练,实现了端到端的人类动画生成的大规模扩展,支持多种输入模态和风格,提升了视频生成的真实性和灵活性。
【方法】:OmniHuman采用基于扩散变换器(Diffusion Transformer)的框架,将运动相关条件融入训练过程,并引入两种训练原则以及相应的模型架构和推理策略。
【实验】:本文使用自定义的数据集进行训练和测试,实验结果显示OmniHuman在生成高度逼真的人类视频方面表现出色,并在ttfamily项目页面上提供了视频样本。
【链接】:https://www.aminer.cn/pub/67a18228ae8580e7ffdeb4ce
s1: Simple test-time scaling
【要点】:本研究提出了一种简单有效的测试时缩放(test-time scaling)方法,通过控制模型思考过程的时间和长度,显著提高了语言模型在推理任务上的性能,创新点在于引入了预算强制(budget forcing)策略。
【方法】:研究团队开发了一种名为预算强制(budget forcing)的方法,通过在模型生成过程中添加“Wait”指令来延长或终止模型的思考过程,以此控制测试时的计算资源。
【实验】:研究使用了一个名为s1K的小型数据集,包含1000个问题及其推理轨迹,经过对Qwen2.5-32B-Instruct语言模型进行监督微调并结合预算强制策略后,实验结果显示,改进后的模型s1在竞赛数学问题上的表现超过了o1-preview,最多提高了27分。
【链接】:https://www.aminer.cn/pub/67a02be8ae8580e7ff8989f8
SNOOPI: Supercharged One-step Diffusion Distillation with Proper Guidance
【要点】:本文提出SNOOPI框架,通过增强训练和推理过程中的引导,解决了现有单步扩散模型在处理不同扩散模型骨架时的不稳定性和不支持负向提示引导的问题。
【方法】:SNOOPI框架包括Proper Guidance-SwiftBrush (PG-SB)方法和Negative-Away Steer Attention (NASA)方法,前者通过使用随机尺度无分类器引导增强训练稳定性,后者通过交叉注意力机制整合负向提示,抑制生成图像中不希望出现的元素。
【实验】:实验使用了多种评估指标,并在HPSv2数据集上取得了31.08的分数,创造了单步扩散模型的新最佳性能记录。
【链接】:https://www.aminer.cn/pub/674fcfceae8580e7ff266641