NeurIPS 2024人工智能技术突破与创新

最新推荐文章于 2025-12-14 02:55:28 发布

原创最新推荐文章于 2025-12-14 02:55:28 发布 · 822 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #AI代理 #程序那些事 #AIGC #自然语言处理 #easyui

构建自适应、智能且安全的AI代理

基于大语言模型的AI代理在通过自然语言命令执行数字任务方面展现出潜力。然而其成功取决于与复杂用户界面的精确交互，这需要大量训练数据。通过AndroidControl，我们分享了迄今为止最多样化的控制数据集，包含超过800个应用的15,000个人工收集的演示。使用该数据集训练的AI代理显示出显著的性能提升，我们希望这有助于推进更通用AI代理的研究。

为了让AI代理能够跨任务泛化，它们需要从每次遇到的经验中学习。我们提出了一种上下文抽象学习方法，帮助代理从不完美的演示和自然语言反馈中掌握关键任务模式和关系，从而提升其性能和适应性。

开发能够实现用户目标的代理AI有助于使技术更有用，但在开发代表我们行事的AI时，对齐至关重要。为此，我们提出了一种理论方法来衡量AI系统的目标导向性，并展示了模型对其用户的感知如何影响其安全过滤器。这些见解共同强调了强大保障措施的重要性，以防止意外或不安全行为，确保AI代理的行动与安全、预期用途保持一致。

推进3D场景创建与模拟

随着游戏和视觉效果等行业对高质量3D内容的需求增长，创建逼真的3D场景仍然成本高昂且耗时。我们最近的工作引入了新颖的3D生成、模拟和控制方法，简化内容创建流程，实现更快、更灵活的工作流。

生产高质量、逼真的3D资产和场景通常需要捕获和建模数千张2D照片。我们展示了CAT3D系统，它可以在短短一分钟内从任意数量的图像（甚至单张图像或文本提示）创建3D内容。CAT3D通过多视角扩散模型实现这一目标，该模型从多个不同视角生成额外一致的2D图像，并将这些生成的图像用作传统3D建模技术的输入。结果在速度和质量上都超越了先前的方法。

模拟包含许多刚性物体的场景（如杂乱的桌面或翻滚的乐高积木）仍然计算密集。为了克服这一障碍，我们提出了一种称为SDF-Sim的新技术，以可扩展的方式表示物体形状，加速碰撞检测，并实现大型复杂场景的高效模拟。

基于扩散模型的AI图像生成器难以控制多个物体的3D位置和方向。我们的解决方案Neural Assets引入了物体特定表示，捕获外观和3D姿态，通过动态视频数据训练学习。Neural Assets使用户能够在场景中移动、旋转或交换物体——这是动画、游戏和虚拟现实的有用工具。

改进大语言模型的学习与响应方式

我们还在推进大语言模型的训练、学习和响应用户的方式，在多个方面提高性能和效率。

随着上下文窗口的扩大，大语言模型现在可以一次性从数千个示例中学习——这被称为多样本上下文学习。这一过程提升了模型在数学、翻译和推理等任务上的性能，但通常需要高质量的人工生成数据。为了使训练更具成本效益，我们探索了适应多样本上下文学习的方法，减少对手动整理数据的依赖。

训练语言模型可用的数据如此之多，构建它们的主要约束变成了可用的计算资源。我们解决了一个重要问题：在固定计算预算下，如何选择正确的模型大小以获得最佳结果？

另一种创新方法，我们称之为时间反转语言模型，探索预训练和微调大语言模型以反向工作。当给定传统大语言模型响应作为输入时，时间反转语言模型生成可能产生这些响应的查询。与传统大语言模型配对时，这种方法不仅有助于确保响应更好地遵循用户指令，还改进了总结文本的引用生成，并增强了针对有害内容的安全过滤器。

策划高质量数据对于训练大型AI模型至关重要，但手动策划难以规模化。为了解决这个问题，我们的联合示例选择算法通过识别较大批次中最可学习的数据来优化训练，实现最多13倍更少的训练轮数和10倍更少的计算，超越了最先进的多模态预训练基线。

规划任务是AI面临的另一个挑战，特别是在随机环境中，结果受到随机性或不确定性的影响。研究人员使用各种推理类型进行规划，但没有一致的方法。我们证明规划本身可以被视为一种独特的概率推理类型，并提出了一个基于规划效果对不同推理技术进行排名的框架。

汇聚全球AI社区

我们很荣幸成为会议的金牌赞助商，并支持全球女性机器学习组织、拉丁裔AI组织和黑人AI组织，在全球范围内建立从事AI、机器学习和数据科学工作的社区。

如果您今年参加NeurIPS，请访问某研究机构展位，在会议期间通过演示、研讨会等探索前沿研究。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）