大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain
A theory of appropriateness with applications to generative artificial intelligence
【要点】:本文提出了一种适宜性理论,并探讨了其在生成式人工智能中的应用,旨在理解人类如何根据不同情境判断适宜行为,以及如何将这一理论应用于AI决策过程以提升其适宜性。
【方法】:作者通过分析人类在不同社会情境下的行为规范,构建了一个适宜性理论框架,并将这一框架与人工智能决策过程相结合。
【链接】:https://www.aminer.cn/pub/67720cbeae8580e7ff764726
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis
【要点】:本研究提出OS-Genesis,一种通过逆向任务合成自动构建GUI智能体轨迹的新方法,有效提高了智能体的性能及轨迹数据的质量和多样性。
【方法】:OS-Genesis通过先让智能体感知环境并进行逐步交互,然后回溯性地导出高质量任务,以实现轨迹级别的探索。
【实验】:在具有挑战性的在线基准测试中,使用OS-Genesis训练的GUI智能体性能显著提高,实验使用了公开的数据集,并在OS-Genesis Homepage上提供了代码、数据和检查点。
【链接】:https://www.aminer.cn/pub/67720cc5ae8580e7ff7664bb
VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought
【要点】:本文提出了一种名为ICAL的方法,通过将低质量演示转化为有价值的抽象经验,提升大规模生成语言和视觉语言模型在决策和指令遵循方面的性能。
【方法】:ICAL方法通过构建一个从次优演示和人类反馈中学习多模态经验洞察的记忆库,使模型能够从噪声演示中抽象出一般性程序,并通过人类反馈进行交互式精炼和适应。
【实验】:在TEACh、VisualWebArena和Ego4D数据集上进行的实验表明,ICAL方法显著提升了对话式指令遵循、多模态网络代理和动作预测的性能,其中在TEACh数据集上任务成功率从18.9%提升至12.6%。此外,通过微调检索增强的上下文代理,进一步提高了性能。
【链接】:https://www.aminer.cn/pub/6678d2dd01d2a3fbfc6e8df8
CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
【要点】:论文提出了CAD-GPT,一种基于增强空间推理的多模态大规模语言模型,能够通过图像或文本描述生成CAD模型,解决了现有方法在空间定位和方向推断上的不足。
【方法】:研究通过引入3D建模空间机制,将3D空间位置和草图平面旋转角度映射到一维语言特征空间,并离散化2D草图坐标,实现了对空间起始位置、草图方向和2D坐标平移的精确确定。
【实验】:研究使用了专门的数据集进行实验,CAD-GPT在CAD模型合成方面定量和定性地均超过了现有最先进的方法,但具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/67720cc5ae8580e7ff766475
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
【要点】:本文揭示了影响视觉-语言-动作模型(VLA)性能的关键因素,并提出了新型VLA架构RoboVLMs,实现了多项任务中的最新性能。
【方法】:研究通过对比分析不同VLM基础架构、VLA架构设计及何时引入跨本体数据三个关键设计选择,系统地探讨了VLA的性能影响因素。
【实验】:本文通过超过8种VLM基础架构、4种政策架构及600余次不同设计的实验,使用多个模拟任务和现实世界实验,验证了RoboVLMs的性能,并公开了所有实验细节、代码、模型、数据集及工具包。
【链接】:https://www.aminer.cn/pub/6763de14ae8580e7ff34898a