大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
本文精选了今日热门论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
LLaVA-o1: Let Vision Language Models Reason Step-by-Step
【要点】:本文提出LLaVA-o1,一种新型视觉语言模型,能进行自主的多阶段推理,显著提高了处理复杂视觉问答任务时的精度和性能。
【方法】:LLaVA-o1采用分阶段推理方法,包括总结、视觉解读、逻辑推理和结论生成,并引入了推理时阶段级别的束搜索方法。
【实验】:通过构建LLaVA-o1-100k数据集,并在多个多模态推理基准测试中,LLaVA-o1仅用100k训练样本和简单的推理时扩展方法,就比基模型提高了8.9%,并超过了更大规模甚至闭源模型的表现。
【链接】:https://www.aminer.cn/pub/673df12b1ff528754d54441a
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models
【要点】:论文提出LLaMA-Mesh模型,通过将3D网格数据表示为纯文本,实现大型语言模型在3D网格生成中的应用,统一了3D和文本模态。
【方法】:作者将3D网格的顶点坐标和面定义表示为纯文本,使预训练的语言模型能够直接处理3D网格数据,通过监督微调(SFT)数据集训练模型生成3D网格并理解3D网格。
【实验】:研究团队构建了SFT数据集,通过实验验证LLaMA-Mesh在3D网格生成质量上与从零开始训练的模型相当,同时保持了强大的文本生成性能。
【链接】:https://www.aminer.cn/pub/6736f5c001d2a3fbfc75b370
MagicQuill: an Intelligent Interactive Image Editing System
【要点】:本文提出了MagicQuill,一个集成的智能互动图像编辑系统,能够通过最小化用户输入快速实现创意想法,并通过多模态大型语言模型实时预测编辑意图,实现精确控制的高质量图像编辑。
【方法】:MagicQuill系统采用了一个简化的用户界面,允许用户以最少的输入进行编辑操作,并利用多模态大型语言模型来预测用户的编辑意图,同时结合强大的扩散先验和双分支插件模块来处理编辑请求。
【实验】:研究通过实验验证了MagicQuill系统的有效性,在实现高质量的图像编辑方面取得了显著效果,具体使用的数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/6736f5e501d2a3fbfc76c61b
Cut Your Losses in Large-Vocabulary Language Models
【要点】:论文提出了一种新的方法 Cut Cross-Entropy (CCE),通过不将所有 token 的 logits 存储到全局内存中,显著降低了大词汇量语言模型训练中的内存消耗。
【方法】:作者提出 Cut Cross-Entropy (CCE) 方法,仅计算正确 token 的 logit 并实时评估所有 logits 的 log-sum-exp,使用自定义内核在闪存上执行矩阵乘法和词汇表的 log-sum-exp 约简。
【实验】:作者在 Gemma 2 (2B) 模型上应用 CCE,将损失计算的内存占用从 24 GB 降低到 1 MB,并将分类器头的总训练时间内存消耗从 28 GB 降低到 1GB,实验证明这种方法减少了内存消耗,同时没有牺牲训练速度或收敛性。
【链接】:https://www.aminer.cn/pub/6736f7dd01d2a3fbfc7c652a
Generative World Explorer
【要点】:本文提出了Generative World Explorer(Genex)框架,通过在大型3D世界中进行心理探索和想象观测来更新信念,从而实现类似人类在没有物理探索的情况下做出更明智决策的能力。
【方法】:Genex框架结合了 egocentric 视角和高斯过程回归模型,通过合成数据集Genex-DB训练,在虚拟物理世界中生成高质量的想象观测以更新信念。
【实验】:实验中使用了自定义的合成数据集Genex-DB,结果显示Genex能够在长时间探索大型虚拟物理世界时生成高质量且一致的观测,并且用这些生成的观测更新信念后,能够帮助现有决策模型(例如LLM代理)做出更好的计划。
【链接】:https://www.aminer.cn/pub/673df289a58ea83693d5559a