- 博客(8)
- 资源 (19)
- 收藏
- 关注
原创 Gemini Robotics 1.5:通过先进的具身推理、思考和动作迁移,推动“通才机器人“的前沿
真正的通用机器人需要对物理世界有深入的理解。我们之前的工作,双子座机器人(双子座机器人团队等人,2025),通过利用双子座丰富的世界知识创建视觉语言动作(VLA)模型,在直接机器人控制方面表现出令人印象深刻的交互性、通用性和灵活性,奠定了坚实的基础。我们现在介绍基于最新一代Gemini的Gemini Robotics 1.5(GR 1.5)系列机器人基础模型(Comanici等人,2025)。新的模型系列显著增强了Gemini Robotics的能力,并将Gemini的先进思维和代理范式带入了现实世界。
2025-10-14 17:43:07
395
原创 重磅解析Gemini 2.5 -- 最新的高级推理、多模态、长上下文和下一代agent能力
在本文中,我们将解析Gemini 2.X型号系列:包括Gemini 2.5 Pro和Gemini 2.5 Flash,以及早期的Gemini 2.0 Flash和Flash Lite型号。Gemini 2.5 Pro是该系列迄今为止能力最强的模型,在前沿编码和推理基准上实现了SoTA性能。 除了令人难以置信的编码和推理技能外,Gemini 2.5 Pro还是一个擅长多模态理解的思维模型,现在能够处理长达3小时的视频内容。 其独特的长上下文、多模式和推理能力的组合可以结合起来,以解锁新的代理工作流程。
2025-07-16 17:47:22
380
原创 大语言模型--智能的图形界面Agent,研究与应用综述(未完待续)
图形用户界面(GUI)长期以来一直是人机交互的核心,提供了一种直观和视觉驱动的方式来访问数字系统并与之交互。传统上,自动化GUI交互依赖于基于脚本或基于规则的方法,这些方法虽然对固定的工作流程有效,但缺乏动态、现实世界应用程序所需的灵活性和适应性。大型语言模型(LLM)的出现,特别是多模态模型的出现,开创了GUI自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。
2024-12-24 17:22:14
1176
原创 大模型智能体操作系统(AIOS: LLM Agent Operating System)
本文提出了AIOS,一种LLM智能体操作系统,它将大型语言模型作为操作系统的大脑嵌入到操作系统中,使操作系统“有灵魂”——这是迈向AGI的重要一步。
2024-03-27 10:48:48
3226
原创 智能体AI(Agent AI),多模态交互(MultiModal Interaction), 现阶段综述及未来展望
这里介绍了Agent AI系统的总体概况,该系统可以在许多不同的领域和应用中感知和行动,可能是使用Agent范式实现AGI的途径。
2024-03-25 10:17:38
4170
1
原创 近期语音合成论文总结
与广泛报道的大型语言模型在不断增加的数据量上训练时的“涌现能力”相呼应,我们发现,使用10K+小时和500M+参数构建的BASE TTS变体开始在文本复杂的句子上表现出自然的韵律。语音标记器的总体架构如图2所示。虽然L1不是最佳重建目标,但我们优先考虑有利于自回归建模的表示[45],并在第2.4节中相应地证明,当用我们的语音编码解码器解码该学习的表示时,可以保持高的最终音频质量。为此,我们引入了一种基于从预训练的WavLM模型[39]中提取的特征的语音标记器,该模型进一步训练了有助于解开说话者身份的损失。
2024-03-21 11:25:15
1863
1
Convex Optimization book (pdf)
2009-04-22
c++检查内存泄露软件 Visual Leak Detector(包含多个版本及源代码)
2010-01-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅