sudun_03-优快云博客

原创 Gemini Robotics 1.5：通过先进的具身推理、思考和动作迁移，推动“通才机器人“的前沿

真正的通用机器人需要对物理世界有深入的理解。我们之前的工作，双子座机器人（双子座机器人团队等人，2025），通过利用双子座丰富的世界知识创建视觉语言动作（VLA）模型，在直接机器人控制方面表现出令人印象深刻的交互性、通用性和灵活性，奠定了坚实的基础。我们现在介绍基于最新一代Gemini的Gemini Robotics 1.5（GR 1.5）系列机器人基础模型（Comanici等人，2025）。新的模型系列显著增强了Gemini Robotics的能力，并将Gemini的先进思维和代理范式带入了现实世界。

2025-10-14 17:43:07 395

原创重磅解析Gemini 2.5 -- 最新的高级推理、多模态、长上下文和下一代agent能力

在本文中，我们将解析Gemini 2.X型号系列：包括Gemini 2.5 Pro和Gemini 2.5 Flash，以及早期的Gemini 2.0 Flash和Flash Lite型号。Gemini 2.5 Pro是该系列迄今为止能力最强的模型，在前沿编码和推理基准上实现了SoTA性能。除了令人难以置信的编码和推理技能外，Gemini 2.5 Pro还是一个擅长多模态理解的思维模型，现在能够处理长达3小时的视频内容。其独特的长上下文、多模式和推理能力的组合可以结合起来，以解锁新的代理工作流程。

2025-07-16 17:47:22 380

原创大语言模型--智能的图形界面Agent，研究与应用综述（未完待续）

图形用户界面（GUI）长期以来一直是人机交互的核心，提供了一种直观和视觉驱动的方式来访问数字系统并与之交互。传统上，自动化GUI交互依赖于基于脚本或基于规则的方法，这些方法虽然对固定的工作流程有效，但缺乏动态、现实世界应用程序所需的灵活性和适应性。大型语言模型（LLM）的出现，特别是多模态模型的出现，开创了GUI自动化的新时代。他们在自然语言理解、代码生成、任务泛化和视觉处理方面表现出了卓越的能力。

2024-12-24 17:22:14 1176

原创大模型智能体操作系统（AIOS: LLM Agent Operating System）

本文提出了AIOS，一种LLM智能体操作系统，它将大型语言模型作为操作系统的大脑嵌入到操作系统中，使操作系统“有灵魂”——这是迈向AGI的重要一步。

2024-03-27 10:48:48 3226

原创智能体AI（Agent AI），多模态交互（MultiModal Interaction），现阶段综述及未来展望

这里介绍了Agent AI系统的总体概况，该系统可以在许多不同的领域和应用中感知和行动，可能是使用Agent范式实现AGI的途径。

2024-03-25 10:17:38 4170 1

原创近期语音合成论文总结

与广泛报道的大型语言模型在不断增加的数据量上训练时的“涌现能力”相呼应，我们发现，使用10K+小时和500M+参数构建的BASE TTS变体开始在文本复杂的句子上表现出自然的韵律。语音标记器的总体架构如图2所示。虽然L1不是最佳重建目标，但我们优先考虑有利于自回归建模的表示[45]，并在第2.4节中相应地证明，当用我们的语音编码解码器解码该学习的表示时，可以保持高的最终音频质量。为此，我们引入了一种基于从预训练的WavLM模型[39]中提取的特征的语音标记器，该模型进一步训练了有助于解开说话者身份的损失。

2024-03-21 11:25:15 1863 1

原创近期语音大模型论文总结

近期一些语音大模型相关论文摘要总结

2024-03-20 12:07:07 3093 1

原创多模态大模型论文总结

多模态大模型近期论文摘要汇总

2024-03-20 11:26:42 1881 1

MPI并行程序开发教程.pdf

MPI并行程序开发教程，详细的pdf文档

2008-10-05

openmp并行编程教程

openmp并行编程教程，详细的说明文档，也可作为技术手册使用

2008-10-05

c++\c 笔试面试宝典2009版

c++语言 c语言面试笔试宝典 2009 最新版

2008-11-21

嵌入式语音识别讲座pdf

嵌入式语音识别，当前的现状，技术与挑战在汽车，手机，游戏等中的应用

2009-03-11

Convex Optimization book (pdf)

看起来是厚厚的一本大部头，读起来并不太费力。它给出的实例多而好用、覆盖面全，不需要太深刻的数学功底，对于复杂的定理性质等也不强调证明，而是着眼于几何意义和实际用途，直观易懂。　　　　作者本身的工科背景使得这本书在工业问题和计算机等实用方面的优点更为突出，数学依据上覆盖面广而不强调深，非常值得想要了解非线性规划的人一读。　　　　唯一的缺点恐怕是想要耐下心来细读这本英文原著要花点精力。不过绝对是值得的。

2009-04-22

c++检查内存泄露软件 Visual Leak Detector（包含多个版本及源代码）

在c++编程中最头疼的自然是内存泄漏问题了，我找了很久，试了很多软件，最后给大家推荐这个visual leak detector. 可以配合vs2005和vs2008等使用，详细安装大家可以看里边的说明。我的经验是1.9d版本配合VS2005使用， 1.9h版本配合VS2008使用，还有目前似乎最好是在XP系统上使用，否则会出现fail to initialize的问题。如还有问题可与我联系：）

2010-01-23