AI科技大本营-优快云博客

转载蚂蚁清华联手放大招！彻底开源RL框架AReaL-boba，人人可复现QwQ

与此同时，上文提及的 Light-R1-7B-DS 核心开发者、360 智脑算法资深专家邹昊晟将亲临大会，带来题为《开源推理模型的课程学习与 GRPO 数据心得和训练策略》的精彩分享。3 月的最后一天，由蚂蚁与清华大学交叉信息研究院吴翼老师团队联合推出的开源强化学习框架 AReaL 发布了里程碑版本——AReaL boba，正如其昵称“boba”（珍珠奶茶）所寓意的那样，AReaL 团队希望他们的工作能像美味且平易近人的奶茶一样，普惠整个 AI 开发社区，让每一位开发者都能轻松驾驭强大的推理模型。

2025-04-03 10:17:40 22

转载 00后程序员当道！下班3小时“爆肝” OpenManus背后的故事

本科毕业于西南交通大学应用物理系，DeepWisdom 算法研究员，特工宇宙学术负责人，阿里全球数赛 AI 赛道第二，AFlow 一作（ICLR 2025 oral），SPO 一作，OpenManus 核心作者。横空出世，迅速爆火！它凭借云端自主执行、多智能体协同、持续学习与记忆等核心能力，无需过多的人工干预，就能直接交付完整的成果，也可以灵活调用各类工具，不仅能。《万有引力》即志在于此，直面事件与困惑，抽丝剥茧，解读技术真相。，利用自己的时间写代码，探索 AI 的更多可能，只为让智能体工具触手可及。

2025-04-02 16:12:27 34

转载从DeepSeek R1的复现看深度思考模型的未来｜ML-Summit 2025

张俊林作为「大模型技术拆解得最通透的实战派」，在 2024 年的机器学习技术大会上，他对 Gemini 多模态架构、OpenAI o1 技术的硬核拆解，让开发者直呼“终于有人讲透技术本质”。作为全球机器学习技术大会的老朋友，新浪微博首席科学家及 AI 研发部负责人张俊林将带来《从 DeepSeek R1 的复现看深度思考模型的未来》的精彩分享。DeepSeek R1 的开源引发了学术界和工业界对其复现研究的热潮，也为探索更强大的“深度思考”模型提供了新的视角。▲2024全球机器学习技术大会展区盛况。

2025-03-31 14:55:51 93

转载成本驱动的精细系统优化，蚂蚁技术专家解密大模型推理优化秘籍｜ML-Summit 2025

近日，蚂蚁集团在 AI 模型训练技术上取得突破，结合“专家混合机器学习”方法，在混合算力的系统下，依然能保证模型性能，并进一步降低训练成本。与此同时，在由优快云 & Boolan 联合举办的 2025 全球机器学习技术大会上，来自蚂蚁的资深算法专家李龙飞将带来《性能驱动的大模型架构探索——网络架构及推理架构》的精彩分享，深入剖析蚂蚁在降低大模型应用成本方面的探索与实践。模型架构：基于对密集模型和 MoE 模型缩放规律的综合分析，蚂蚁团队选择与可用计算资源最匹配的架构，实现了资源利用率的最大化。

2025-03-31 10:29:31 99

转载抛弃 OpenAI 后，Figure 机器人“进化”：像人一样行走！

为了实现这一目标，工程师们构建了一个高度逼真的物理模拟环境，其中，数以千计的 Figure 02 机器人并联运行，每个机器人都有其独特的物理参数。通过将域随机化与高频扭矩反馈控制相结合，Figure 成功地实现了零样本迁移（Zero-Shot Transfer），即无需额外的微调，在模拟环境中训练出的策略可以直接应用于真实的 Figure 02 机器人上。如何实现更自然的人机交互？在模拟环境中，随机化每个机器人的物理属性，模拟各种可能出现的系统变化，使得训练出的策略能够适应真实世界中机器人之间的差异。

2025-03-28 11:42:48 118

转载大模型和具身智能究竟是什么关系？

它会主动询问你的情况，并根据你的反馈给出一些缓解压力的建议，如播放一些舒缓的音乐或者有趣的视频。以家用服务机器人为例，当它在执行清洁任务时，需要根据房间的布局、家具的摆放、地面的材质等因素，动态规划最优的清洁路径。举个例子，当你在使用智能音箱时，它不会只机械地回答你的问题，而会用轻松愉悦的语气与你聊天，会关心你的感受，会在恰当的时候给你一些鼓励和安慰。机器人需要理解“收拾”“玩具”“盒子”等词语的含义，也需要将语言命令映射到具体的动作序列，还需要在执行过程中实时感知环境的变化，动态调整自己的行为。

2025-03-28 11:42:48 100

转载 HF、NVIDIA、Google、阿里、智源、宇树科技齐聚GOSIM AI Paris 2025，共掀开源浪潮！

来自 Linux 基金会、PyTorch基金会、Hugging Face 、NVIDIA、Google、阿里、BAAI、TiDB、宇树科技、MiniMax、Dify、面壁智能、牛津大学、北京大学等。汇聚来自HuggingFace、BAAl和优快云、MiniMax、面壁智能、Oxen.ai、牛津大学的资深专家，全方位剖析AI模型从数据集的精心策划、基础设施的搭建，到训练与RL微调的优化。聚集业界专家、学者和开发者，围绕全球开发者广泛关注的5大领域，共同探讨前沿技术的最新进展、应用案例以及未来趋势。

2025-03-27 17:36:28 115

转载长文本向量模型在4K Tokens 之外形同盲区？

我们准备了十本公版书，每本都至少有 5 万个词元（tokens），我们从每本书里随机抽取一些短小的片段（每个片段不超过 250 个词元），然后把这些片段拼接起来，形成不同长度的“上下文”，长度分别是 128、256、512、1024、2048、4096 和 8192 个词元。总的来说，我们的研究表明，像 jina-embeddings-v3 这样的向量模型，处理短文本很有一套，但要处理那些需要深入理解语义的长文本，还是力不从心。结果发现，上下文越长，模型的结果就越接近瞎猜，跟随便挑一段没用的文本差不多。

2025-03-27 10:24:35 94

转载大厂竞相押注人形机器人，我们距离通用还有多远？

之前曾担任SAIC Zone Tech的首席自动驾驶科学家，上海大学的客座教授，Black Sesame Technology的自动驾驶研究副总裁，Singulato USA的董事长。创办微博账号“爱可可-爱生活”，聚焦人工智能主题，以专业的学术品位、广阔的领域视野、敏锐的业界观察、丰富优质的资源推荐，为广大人工智能、机器学习和数据科学爱好者所熟悉和喜爱。人形机器人之所以成为当前最受关注的具身智能形态，主要因为它们契合人类社会的环境需求——建筑、工具、交互方式，几乎所有基础设施都围绕人类身体设计。

2025-03-27 10:24:35 98

原创超越 Suno，全球首个 CoT 音乐模型Mureka O1 来了！

这种表达在过去很困难，因为工具门槛高，而未来30年是自我表达的30年，我们要用AI把人类创作的门槛降得足够低，让人们更充分地实现自我表达。来，上难度，点击高级模式，Mureka 平台一键“以曲生曲”，选择或上传参考的音频，Mureka 也能根据你想要的音乐生成新的音乐了。如果你想更进一步定制更多音乐内容，Mureka 作为业内首批正式提供多种 API 服务的 AI 音乐生成工具，开发者可以直接调用 Mureka 的 API 生成歌曲，同时可以上传自己的私有数据微调模型，让模型生成符合数据特征风格的歌曲。

2025-03-26 18:21:08 984

转载大模型“神仙打架”，掀起复现潮、技术大升级后，我们需要关注什么？ | 万有引力

AI 代码能力的提升，会加剧程序员的焦虑，还是带来新机遇？马斯克推出的 Grok 3，给人的第一印象就是“豪横”——凭借 20 万张 GPU 堆出的模型，在数学、科学和编程等基准测试中，超越了 Google 的 Gemini Flash Thinking、DeepSeek V3、Claude，以及 OpenAI GPT-4o。他们说模型学会了工具调用，但实际上，Prompt 设计很简单，只是告诉它前面有个类似 Game Boy 的设备，可以选择按 A、B、X、Y、上下左右等键，再结合多模态能力操作游戏。

2025-03-25 09:46:50 161

转载 2025人工智能系列活动全景透视，慕尼黑上海电子展邀您共探未来！

汇聚学术界、产业界的专家、资深学者以及优秀企业代表，围绕下一代AI芯片架构设计的技术挑战与趋势、数据安全与隐私保护、AI 与存储的联合挑战等核心议题，展开深度研讨与经验分享，为行业提供极具价值的交流平台与决策参考，助力推动AI产业迈向更高的发展阶段。半导体、传感器、电源、测试测量、半导体智造、人工智能、人形机器人、分销商、无源器件、显示、连接器、开关、线束线缆、印刷电路板、电子制造服务。，专注于最新的人形机器人技术，核心部件的协同支持及应用行业市场及应用场景，共同探讨人形机器人在各个领域的应用与发展。

2025-03-25 09:46:50 134

原创 OpenAI研究负责人诺姆·布朗：基准测试比数字大小毫无意义，未来靠token成本衡量模型智能｜GTC 2025

而人类的力量，与强大的推理模型相结合，意味着你将拥有一个强大的团队，来帮助你解决最复杂的问题，帮助你理清最棘手的问题。所以我对未来，真的非常乐观。因此，在那种模式下，当你考虑如何构建系统，以及如何使用系统的平衡时，你会发现，大部分的计算资源，都投入到了构建系统本身，而使用系统则相对简单直接。当然，任何强大的技术，都存在风险，既有积极的一面，也有消极的一面。我相信，这些模型最终将能够，正如布莱恩所说，增强人类的能力，与人类形成互补，促进科学进步，实现那些原本不可能实现，或者需要花费更长时间才能实现的突破。

2025-03-24 16:40:08 914

转载小红书技术专家解密语音识别与推荐算法，干货满满｜ML Summit 2025

目前，他在小红书负责语音识别与合成、语音交互、音乐技术在小红书全场景下的研发及落地，并主导打造了基于大模型的语音/音乐技术前沿综合解决方案 FireRed。他将分享在小红书这种社区推荐场景下，如何利用大模型技术，结合用户行为，提升内容理解能力，解决内容快速冷启动、精准的目标建模、内容去中心化分发的问题，以及如何利用 LLM 的推理能力，更好地结合用户的画像、行为和消费场景，可解释地实现兴趣的探索、打破信息茧房。在本次大会上，解奉龙博士将带来《FireRed-基于大模型的语音/音乐技术综合实践》的精彩演讲。

2025-03-24 16:40:08 115

原创杨立昆“砸场”英伟达：不太认同黄仁勋，目前大模型的推理方式根本是错的，token 不是表示物理世界的正确方式｜GTC 2025

如果让人来阅读这么多文本，即使是阅读速度很快的人，也需要超过 40 万年的时间，因为这几乎相当于互联网上所有文本的总量，现在，心理学家告诉我们，一个四岁的孩子，总共清醒的时间大约是 16000 个小时，而且我们通过视神经，每秒钟大约有 2 兆字节的数据进入视觉皮层，大概每秒 2 兆字节。它基本上就是一个去噪自编码器，很像 U-Net 用的那种，就是说你拿一张图片，通过移除其中的一部分，实际上是很大一部分，来破坏它，然后你训练一个巨大的神经网络，基本上在像素级别，或者 token 级别，重建出完整的图像。

2025-03-21 14:52:04 5533 3

转载阶跃星辰 Tech Fellow 段楠：Step-Video 系列模型的关键技术解读

在 4 月 18 日下午，走在多模态研究前沿的阶跃星辰 Tech Fellow，多模态基础模型领域专家段楠博士将在「多模态大模型前沿」专场带来《视频生成基础模型进展、挑战和未来》的主题分享，分享其在视频生成基础模型方面的最新研究成果和前瞻性思考。是全球领先的视频生成模型，参数量高达 300 亿，可生成长达 8-10 秒的 540P 高质量视频，确保内容信息密度和时空一致性，支持文生视频、图生视频等多种任务，覆盖复杂运动和电影级镜头语言等 11 类内容生成需求，并原生支持中英双语输入。

2025-03-21 11:09:40 274

转载 3小时复刻传奇，OpenManus一作梁新兵：通用Agent的构建与赋能

此外，演讲将结合实际案例，分析 OpenManus 在数据分析、信息处理及多种应用场景中的落地表现，并与参会者共同展望通用智能体的发展趋势及技术挑战。员、OpenManus 项目一作，MetaGPT 开源核心贡献者梁新兵将带来《通用 Agent 的构建与赋能：OpenManus 的实践与探索》分享。此外，延续往年传统，本次大会。在 2025 全球机器学习技术大会（ML Summit 2025）上，梁新兵将分享他对通用智能体构建的最新思考与实践经验。对开源的满腔热情，不断探索通用 Agent 的构建与赋能。

2025-03-20 17:08:19 3894 1

转载基辛格遗世之作：AI 吞噬世界下的人类

为了说明这一概念的实用性，以下定义可用以抛砖引玉：尊严是一些生灵与生俱来的品质，这些生灵生来脆弱、必有一死，因此充满了不安全感和恐惧，尽管他们有自然的倾向，但他们能够而且确实行使了自己的自由，不去追随自己的恶念，而是选择自己的善念。它们可能体现了人性的元素，但从道德意义上讲，它们并不是真实的人类。明确界定具体的人类属性——特别是那些像尊严一样被广泛纳入国际政治文书和全球信仰的属性——可以在迷失时期指导人类的前行努力，包括在主动和被动之间的选择，自我进化的潜在限制，以及人工智能朝着人类方向的精确转化。

2025-03-19 09:53:29 204

转载黄仁勋年度演讲来了，Scaling Law失效只是假象，推理需求暴涨100倍，AI模型优化迎来新挑战｜GTC 2025

开头讲过，token 可以解释万物，这里就是将感知 token 和文本 token 分别输入到慢思考（System 2）的视觉语言模型和快思考（System 1）的扩散 Transformer 模型里，最终输出行动 token 给机器人，让它有所反应。处理器不同，操作系统也不同，上面的应用程序也不同，你协调的方式也不同，运行它们的方式也不同。“强化学习是过去几年的重大突破。为了训练 AI，我们的最终目标是“希望没有人类参与到训练的循环中”，因为人类在循环中之所以具有根本性的挑战性，也就是寿命时间。

2025-03-19 09:53:29 262

原创 AMD潘晓明：全力推动中国AI PC生态！ISV伙伴年底达170家

3月18日，AMD在北京举办了新一届AI PC创新峰会，AMD高级副总裁、大中华区总裁潘晓明发表主题演讲，重点阐述了AMD如何与行业伙伴合作，推动AI PC给中国用户带来更好的体验。

2025-03-18 22:44:13 590

转载 RAG碰上RL，超越RAG？推理与搜索结合，用强化学习打破LLMs推理知识局限！

在多跳问答任务上实现显著的性能提升：相比于最好的基线ReARTeR，R1-Searcher，使用相同的LLaMA-3.1-8B-Instruct作为backbone，实现了显著的性能提升：在HotpotQA上提升了**48.2%，在2WikiMultiHopQA上提升了21.7%，在Bamboogle上提升了4.0%**（LLM-as-Judge）。令人惊讶的是，我们能够取得更好的结果，并在大多数领域内和领域外的数据集上获得最佳性能，甚至超过了闭源的LLM，如GPT-4o-mini。

2025-03-18 11:30:04 203

转载诺奖采访深度学习教父辛顿：最快五年内 AI 有 50% 概率超越人类，任何说“一切都会好起来”的人都是疯子

因为对于人工智能模型，我们可以冻结其参数，并量化其中的歧视程度，这在人类身上是难以做到的。我们在玻尔兹曼机理论的研究中贡献相当，可以说，没有与他的交流，就不会有我的理论，反之亦然。但是，这些事物会非常聪明，它们会像我们一样，实际上，它们的工作方式与我们非常相似。实际上，我在很小的时候经历过几件事，这对我的成长有所帮助。这样做的好处是，接受培训的人们可以留在自己的社区，并为社区提供安全的饮用水。在加拿大这样一个富裕的国家，例如在安大略省，仍然有 20% 的原住民社区无法获得安全的饮用水，这简直是难以置信的。

2025-03-18 11:30:04 179

转载全栈自研，理想发布下一代自动驾驶架构 MindVLA

MindVLA基于自研的重建+生成云端统一世界模型，深度融合重建模型的三维场景还原能力与生成模型的新视角补全，以及未见视角预测能力，构建接近真实世界的仿真环境。“找得到”意味着车辆可以自主地在地库、园区和公共道路上漫游，其中典型应用场景是用户在商场地库找不到车位时，可以跟车辆说：“去找个车位停好”，车辆就会利用强大的空间推理能力自主寻找车位，即便遇到死胡同，车辆也会自如地倒车，重新寻找合适的车位停下，整个过程不依赖地图或导航信息，完全依赖MindVLA的空间理解和逻辑推理能力。

2025-03-18 11:30:04 218

转载院士领衔、IEEE Fellow 坐镇，清华、上交大、复旦、同济等专家齐聚 2025 全球机器学习技术大会！

发表百余篇高水平论文，主持多项国家级科研项目，并积极推动 AI 技术在电子商务、医疗、税务、金融、交通等领域的落地应用。2025 全球机器学习技术大会诚邀加拿大工程院及加拿大皇家学院院士杨强，清华大学人工智能研究院副院长、IEEE Fellow 朱军，清华大学交叉信息研究院助理教授、前 OpenAI 研究员吴翼，同济大学计算机科学与技术学院教授、博导胡亮，上海交通大学人工智能学院长聘教轨副教授温颖，中国人工智能领军科学家刘志毅，上海人工智能实验室青年科学家崔淦渠，复旦大学大数据学院青年副研究员周宝健，

2025-03-17 11:16:04 242

转载读懂 DeepSeek 开源周：AI 算力平民化，从“瓦特时刻”到“工业革命” | AI 进化论

可以在多个 App 应用中，使用 PPIO 派欧云的 API，包括 Dify，FastGPT，轻流，Anything，RAGFlow，CherryStudio 等。传统的 MHA 因而需要大量的显存空间去存储 KV Cache，而 MLA 通过信息注入的方式，将 KV 不同头上的公共信息压缩到 Q 上，将非共享信息转化为只有一个头的 C，再通过旋转位置编码的方法在实际计算的时候，只要很小的计算量，就可以还原出 KVCache，从而实现与 MHA 相同的效果。海外开发者也更关注中国的产品，加速了行业的发展。

2025-03-14 12:26:40 134

认知智能技术与产业研究报告2023

2018 AI开发者大会全日程

空空如也