智启七月-优快云博客

原创 GPT-5.1升级登场：AI终于学会把“人”放在第一位

OpenAI发布GPT-5.1升级版AI模型，包含GPT-5.1 Instant和GPT-5.1 Thinking两个版本，强调更智能自然的对话体验。新模型具备自适应推理能力，可调节响应速度和深度，语言表达更清晰温暖，并新增8种可切换的聊天风格。OpenAI首次将心理健康和情感依赖纳入安全评估维度，关注AI与用户的情感互动边界。该更新将优先向付费用户推送，GPT-5模型将保留3个月过渡期。此次升级体现了OpenAI在技术性能与人文关怀上的平衡追求。

2025-11-13 22:34:03 865

原创 TypeScript 超越python登顶 GitHub：一场编程语言格局的十年之变

摘要：GitHub 2025年数据显示TypeScript以263.6万贡献者超越Python登顶，增长66%。这一变化反映开发范式转型：类型化语言成为AI时代的首选，现代框架默认使用TS，其严格类型系统显著提升AI代码可靠性。Python虽在AI领域仍以58.2万仓库占据主导，但TS与Python形成互补格局，分别代表工业级开发与快速迭代的不同优势。微软TS Native预览版性能提升10倍，进一步推动其普及。这场语言变迁标志着静态类型与动态类型在各自适用场景下的价值分野。

2025-11-13 21:48:10 755

原创 0.2B 参数逆袭 GPT-4.1：组合推理的技术革命与评估范式重构

摘要：加州大学研究团队提出创新性GroupMatch指标和Test-Time Matching（TTM）算法，使小参数模型实现超越性表现。仅0.2B参数的SigLIP-B16在组合推理基准测试中超越GPT-4.1，GPT-4.1更首次在Winoground测试中突破人类水平。该研究揭示了传统AI评估体系的局限性，通过测试阶段优化挖掘模型潜在能力，为小模型逆袭大模型提供了新思路。TTM算法通过伪标签和渐进式训练，使模型性能最高提升10.5%，错误率降低54.8%，在多数据集上取得显著效果突破。（150字）

2025-11-11 16:58:26 772

原创 AI教母李飞飞长文，从语言到世界：空间智能开启 AI 的下一个十年

“AI教母”李飞飞发表了一篇信息量非常高密的长文，名为“From Words to Worlds：Spatial Intelligence is AI’s Next Frontier”。AI的下一个前沿，是「空间智能」。

2025-11-11 16:28:28 1115

原创谷歌嵌套学习：突破 LLM 遗忘瓶颈，让 AI 实现人脑式持续进化

谷歌提出"嵌套学习"新范式破解AI持续学习难题谷歌研究团队在NeurIPS 2025发表论文提出"嵌套学习"(Nested Learning)新范式，通过将架构和优化视为统一的嵌套优化系统，解决大模型持续学习中的"灾难性遗忘"问题。该研究将传统分离的模型架构与训练算法统一处理，构建了包含多级优化问题的连续体记忆系统(CMS)，使AI能像人脑一样持续学习新知识而不遗忘旧技能。验证性模型Hope在语言建模和长上下文推理任务中展现了优异性能，困惑度和准

2025-11-08 18:02:13 1045

原创 UCSD推出PettingLLMs框架，多智能体协同训练提升LLM任务，达5.8倍

摘要：加州大学圣地亚哥分校和英特尔团队开发了多智能体强化学习框架PettingLLMs，该框架创新性地采用贪心搜索树状采样和双奖励函数设计，支持多个LLM协同训练，显著提升了任务表现。在规划、代码生成和数学推理任务中，该框架使模型性能最高提升5.8倍（如推箱子任务成功率从14%升至96%）。PettingLLMs通过角色感知奖励机制促使智能体形成深度分工，实验显示互换角色后性能骤降90%。该开源框架降低了多智能体强化学习开发门槛，为LLM协作优化提供了新范式。（149字）

2025-11-08 17:28:09 1015

原创 6.4 万 Star 开源智能体框架迎史诗级重构！OpenHands V1 横空出世，叫板巨头

开源智能体框架OpenHands迎来V1版本重大升级，GitHub星标突破6.4万。本次重构解决了初代架构的局限性，通过四项核心原则实现了灵活性、安全性的全面提升：支持从简单到复杂的智能体开发；提供本地到远程的无缝执行；支持多样化交互界面；集成原生沙盒、多LLM路由等特色功能。在SWE-Bench和GAIA基准测试中表现优异，最高任务解决率达72%。项目保持MIT开源协议，已形成完整工具链和150+贡献者的生态体系。

2025-11-08 16:51:00 874

原创小鹏人形机器人到底是不是真人？

小鹏汽车发布新一代IRON人形机器人引发"真人质疑"，其高度拟真的行走姿态被众多网友怀疑"藏了真人"。CEO何小鹏发布视频展示内部结构，证实是团队7年研发成果：采集120位模特80万帧数据，376次算法迭代，实现0.3Hz误差的精准步态复刻。该机器人具备82个自由度、仿生肌肉和2250TOPS算力，计划2026年量产。何小鹏表示，推动机器人量产是当代创业者的使命，预计3年内中国将推出能完成简单任务的高阶人形机器人。

2025-11-06 21:09:23 715

原创从 token 到向量：微信 CALM 模型颠覆大语言模型范式

微信AI与清华大学联合发布的CALM模型突破了大语言模型的传统token预测范式，创新性地将多个token压缩为语义向量进行预测。该模型通过四个核心模块实现端到端生成，其中语义压缩模块采用自编码器实现99%准确率的无损压缩，生成模块则基于Energy Transformer实现连续向量预测。研究表明，当K=4时，CALM在保持性能相当的前提下，训练算力降低44%，推理算力降低34%，显著提升了效率。实验显示CALM在WikiText-103数据集上的表现优于传统Transformer，且具有优异的鲁棒性，为

2025-11-06 20:42:28 890

原创 SAIL-Embedding：打通「视、文、音」的全模态嵌入技术深度解析

SAIL-Embedding是字节跳动联合

2025-11-04 21:30:16 964

原创 NIPS2025，小红书新研究提出图像InstanceAssemble 算法

小红书AIGC团队在NIPS2025提出创新性InstanceAssemble算法，解决布局可控图像生成(L2I)的核心难题。该算法采用两阶段级联架构，先生成全局背景再通过实例组装注意力模块(Assemble-Attn)实现局部精准控制，同时利用LoRA技术仅增加3%参数即实现DiT扩展。实验表明，即使在密集布局场景下(每图18个目标)，该方法仍能保持高精度的位置对齐和语义一致性，同时参数开销减少97%，推理速度提升3倍。团队还构建了DenseLayout测试集和新的LGS评估指标，验证了算法在复杂场景下的

2025-11-03 21:15:46 907

原创 GigaAI最新重磅发布GigaBrain-0：世界模型驱动的VLA模型

GigaAI团队最新发布的GigaBrain-0是一种突破性的视觉-语言-动作（VLA）模型，通过世界模型生成90%训练数据，仅需10%真实数据即可实现卓越泛化能力。该模型创新性地结合RGBD空间感知与具身思维链推理，采用模块化设计和知识隔离技术，有效解决了传统VLA模型对真实数据的强依赖问题。实验表明，GigaBrain-0在衣物折叠、餐桌整理等复杂任务中表现优异，并能适应多样化场景。团队还推出了轻量级版本GigaBrain-0-Small，适用于边缘设备部署。这一突破为具身智能领域提供了新的发展方向。

2025-10-30 15:50:25 647

原创 FlowithOS 横空出世：AI Agent 操作系统

AI应用初创企业Flowith推出全球首款专为AI Agent设计的操作系统FlowithOS。该系统具有自进化、记忆驱动和高性能特点，通过"代码+视觉"双模态引擎实现97.7%的任务成功率，能精准处理动态界面和复杂操作。其核心创新在于"技能+记忆"系统，可将成功任务固化为可复用技能，并通过长期记忆学习用户习惯。实测显示，FlowithOS能自动完成内容生产、批量互动等任务，甚至参与德州扑克游戏决策，展现了强大的自主执行能力。目前支持Windows/macOS平台，提

2025-10-29 21:45:37 392

原创 Thinking Machine新研究RL+微调，小模型训练更具性价比

2025 年 10 月下旬，前 OpenAI 首席技术官 Mira Murati 创办的 Thinking Machine Lab 公布一项革命性研究 ——“在线策略蒸馏”（On-Policy Distillation）技术，通过融合强化学习（RL）与监督微调优势，使小模型训练效率提升 50-100 倍，计算成本降低 9-30 倍，相关成果经 Murati 转发后迅速引爆 AI 圈。

2025-10-29 20:06:41 691

原创华为发布 WorldGrow 世界模型：单卡 30 分钟生成 272㎡场景

华为联合高校推出世界模型WorldGrow，实现室内3D场景生成技术突破。该模型能在单张A100显卡上30分钟生成272㎡高质量连贯场景，解决了传统AI建模中边缘断裂、逻辑混乱等问题。通过"双生成器搭档"和三线性插值算法，WorldGrow实现了高精度细节与逻辑化布局，测试指标FID值仅7.52。值得注意的是，这项由华为实习生主导研发的技术，已通过论文公开并集成至华为云盘古大模型体系，或将重塑3D建模行业标准。

2025-10-29 19:10:03 1007

原创智元办机器人挑战赛：清华&上海AILab夺冠，华南理工亚军

智元机器人联合OpenDriveLab举办的AGIBOT World Challenge线下决赛在杭州IROS落幕，11支顶尖队伍在六大真实物理任务中展开角逐。最终，清华大学联合上海AI Lab的AIR-DREAM团队夺冠，华南理工大学

2025-10-28 20:42:14 823

原创机器人学习入门不再难！HuggingFace 联合牛津大学推出教程 + 开源库，手把手带新人破局

HuggingFace联合牛津大学推出《Robot Learning: A Tutorial》教程和LeRobot开源工具库，为机器人学习新手提供"理论+实践"的入门指南。教程从传统机器人学的局限切入，详细讲解强化学习、模仿学习等核心技术，并配套开源工具包，包含SOTA方法、预训练模型和模拟环境。特别推荐轻量化VLA模型SmolVLA，参数仅4.5亿，适合初学者调试。这套资源降低了机器人学习门槛，让没有专业背景的开发者也能快速上手实践。

2025-10-28 20:13:10 730

原创当文本变成图像：清华、智谱 Glyph 框架如何破解大模型的 “上下文牢笼”

【摘要】清华大学与智谱AI联合发布Glyph框架，创新性地通过视觉压缩技术突破大模型的长文本处理瓶颈。该框架将文本渲染为图像，利用视觉语言模型（VLM）处理，在保持精度的同时实现3-4倍token压缩。Glyph采用三阶段技术路径：持续预训练建立视觉-语言对齐能力；LLM驱动的遗传搜索算法优化渲染参数；强化学习与OCR辅助任务提升细节理解。实验表明，该方法显著降低算力消耗，使128K窗口模型能处理240K文本内容，为长上下文建模开辟了新方向。相关论文与代码已开源，有望重塑大模型的信息输入范式。

2025-10-25 18:41:40 919

原创大模型推理新范式：ExGRPO 如何让 AI 从 “盲目刷题“ 进化到 “聪明复盘“

摘要 ExGRPO（基于经验分组的相对策略优化）是一种新型大模型推理训练框架，解决了传统强化学习方法的三大痛点：经验浪费、奖励噪音和训练低效。该技术通过动态筛选中等难度（25%-75%正确率）且低熵（逻辑连贯）的解题轨迹构建"智能错题本"，采用混合On/Off-policy优化策略，结合组内相对评估机制，显著提升训练效率。实验表明，在数学推理任务中，ExGRPO使样本利用率提升40%以上，准确率提高7.6%，同时增强训练稳定性。这一突破性方法实现了AI从"盲目刷题"到

2025-10-25 18:21:21 844

原创 PaddleOCR-VL技术深度解析：0.9B参数实现SOTA文档解析

摘要：百度飞桨团队开源PaddleOCR-VL轻量级多模态文档解析模型，仅0.9B参数即在国际评测OmnidocBench V1.5中以92.6分超越GPT-4o等主流模型。该模型采用双阶段架构：PP-DocLayoutV2进行版面分析和阅读顺序预测，PaddleOCR-VL-0.9B完成文本、表格、公式等109种语言的内容识别，支持输出结构化Markdown/JSON数据。其核心创新包括动态高分辨率视觉编码器、ERNIE-4.5-0.3B语言模型融合，以及轻量化设计，使模型在CPU上也能高效运行。特别适

2025-10-23 20:43:33 1166

原创 Dexbotic 开源深度解析：重构具身智能 VLA 研发的技术基石与实现路径

Dexbotic开源项目为具身智能研究提供标准化工具，通过统一数据格式Dexdata、提供预训练模型DexboticVLM和模块化框架，解决VLA研究碎片化问题。项目支持多种机器人平台和主流算法，显著提升模型性能（如CogACT任务成功率提升18%），并简化实验流程。Dexbotic既支持云训练也适配本地环境，降低了研究门槛，推动具身智能领域的技术迭代与创新。

2025-10-23 20:17:40 693

原创 OpenAI发布chatgpt集成的浏览器，叩响浏览器革命之门

OpenAI发布革命性AI浏览器ChatGPT Atlas，挑战谷歌Chrome霸主地位。该浏览器集成智能侧边栏、个性化记忆和智能体模式，能理解页面内容并执行多步骤任务。分析师认为这是OpenAI布局数据护城河、争夺流量自主权的重要战略。当前AI浏览器市场竞争激烈，谷歌、微软等巨头纷纷布局。尽管Atlas面临兼容性、安全性等挑战，但其代表的AI交互范式可能重塑760亿美元市场。这场变革最终将推动浏览器从内容展示窗口升级为智能助手。

2025-10-22 20:09:23 1135

原创谷歌 Gemini 3.0 正式发布：一键生成 Web OS，编程能力碾压竞品

谷歌DeepMind正式发布新一代AI模型Gemini 3.0，推出Pro专业版与Flash轻量版两个版本。该模型在代码生成和全场景适配方面实现重大突破，可一键生成完整Web操作系统，编程能力显著超越GPT-5等竞品。技术亮点包括改进的MoE架构、多模态融合和终端适配优化，使延迟降低至前代的1/3，并支持8GB显存本地部署。实测显示，Gemini 3.0能生成功能完整的Web版macOS系统，在物理模拟、SVG生成等任务中表现突出。行业认为这将大幅提升前端开发效率，推动AI编程进入新阶段。

2025-10-22 13:24:04 2786

原创 DeepSeek-OCR：用光学压缩颠覆长文本处理，10倍压缩比下的97%精度革命

DeepSeek-OCR推出革命性"光学压缩"技术，仅30亿参数即实现10倍无损压缩，在单张A40显卡上日处理20万页文档。该技术将文本转为图像后用视觉token压缩，100个token可还原千字文档（97%精度），比传统方法节省90%资源。模型采用仿生设计模拟人类记忆遗忘曲线，支持6种分辨率模式自动切换。核心架构包含高效压缩的DeepEncoder编码器和低延迟的3B-MoE解码器，为长文本处理提供突破性解决方案。

2025-10-22 12:21:41 915

原创单卡驱动的数字孪生：李飞飞团队 RTFM 模型如何重构 3D 生成范式

摘要： 2025年10月，李飞飞团队发布实时生成式世界模型RTFM，仅需单块H100 GPU即可运行。RTFM基于三大原则：效率（交互式帧率推理）、可扩展性（端到端学习渲染，无需显式3D建模）和持久性（3D空间记忆实现无限交互）。其核心技术采用自回归扩散变换器，通过海量视频数据学习渲染规律，将物理渲染转化为数据驱动的感知任务，直接预测新视角画面。RTFM还创新性引入**"姿势帧"空间记忆**，结合上下文杂耍技术，实现大型场景的几何持久化与高效渲染。该模型模糊了重建与生成的界限，标志着生成

2025-10-20 15:04:01 1068

原创扩散模型一文讲解

摘要扩散模型（Diffusion Model）是近年来兴起的一种生成模型，通过逐步加噪和去噪的过程实现高质量图像生成。其核心包括前向扩散过程和反向生成过程：前向过程逐步向图像添加高斯噪声，反向过程则通过训练神经网络学习去噪。模型采用类似UNet的网络结构，结合正弦位置编码和时间条件机制，能够预测并去除噪声。训练时随机采样时间步计算噪声预测损失，生成时从随机噪声逐步去噪还原图像。该模型在图像和视频生成领域展现出强大潜力，被Stability AI、OpenAI等机构广泛应用。

2025-10-04 18:27:29 772

原创深度剖析 Grok2 开源：技术原理与创新洞察

2025年8月24日，马斯克宣布xAI开源Grok-2.5（实际为Grok-2）模型，采用混合专家（MoE）架构，参数量达2680亿，包含42个分片约500GB。开源采用受限许可证，仅允许非商业和年收入低于100万美元的商业使用，禁止用于训练其他基础模型。Grok-2技术亮点包括：64层Transformer结构、8192隐藏维度、支持128k token的超长上下文处理能力，以及混合精度训练和分布式训练等优化技术。该模型在文本理解、代码处理等任务上展现出强大性能。

2025-08-25 16:13:33 759

原创 DeepSeekV3.1发布！新版本冲上huggingface排行榜第4

DeepSeek V3.1突破性实现128k上下文处理能力摘要：DeepSeek于2025年8月发布V3.1版本，核心突破是将上下文处理能力扩展至128k字符。该版本采用混合稀疏注意力机制，结合局部注意力和周期性全局注意力，有效解决了传统Transformer模型在处理长文本时的计算瓶颈问题。通过分块处理、并行计算和优化的内存管理技术，在保证计算效率的同时显著提升了长文本处理能力。新版本保持API兼容性，支持多平台使用，在文档处理、智能客服等领域展现出广阔应用前景。这一技术突破为NLP领域的长文本处理提供

2025-08-20 10:24:02 899

原创昆仑万维SkyWork AI技术发布周：多模态模型的全面突破

昆仑万维在2025年8月11日至15日举办的SkyWork AI技术发布周上，开源了6大前沿AI模型，涵盖视频、3D、图像、智能体和音乐创作等领域。其中，SkyReels-A3实现分钟级长视频生成，Matrix-Game 2.0支持实时交互式长序列生成，Matrix-3D可从单图生成全景场景，Mureka V7.5则针对中文音乐创作进行了优化。这些技术突破将深刻影响直播电商、虚拟现实、科研及音乐创作等行业，推动多模态AI技术的创新发展。

2025-08-19 13:49:34 1550

原创只用 3×3 卷积打败 Diffusion Transformer——北大-北邮-华为开源的 DiC 真正“小而强”

摘要： DiC提出了一种纯卷积架构的扩散模型，在保持生成质量的同时显著降低计算成本。核心创新包括：**频率感知空洞卷积（FADC）**动态捕捉多尺度特征，**双路径残差（DPR）缓解深度梯度消失，以及混合频率采样（MFS）**优化训练效率。实验表明，DiC-B（72M参数）在512×512图像生成上FID达7.95，优于DiT-L（344M参数），且骁龙8 Gen3 NPU部署仅需0.9秒/图。开源方案支持从训练到端侧INT8量化的全流程，为移动端AIGC提供高效解决方案。

2025-07-16 15:06:51 787

原创【深夜核弹】Kimi K2 开源：首个万亿参数「通用 Agent 基座」降临，OpenAI 被迫加班？

官方演示：一句“帮我把 Notion 里的 PRD 生成前端代码并部署到 Vercel”，K2 自动完成 Notion API→代码→GitHub→Vercel 的全链路。同时Perplexity 已抢先“二次预训练”Perplexity CEO 发推表示正基于 K2 做后训练，计划打造“搜索 Agent 2.0”。基准成绩：开源新 SOTA，部分指标碾压 GPT-4.1，代码、数学推理能力直逼claude4。技术深水区：MuonClip 优化器 + qk-clip。开场 90 秒：三条动态炸穿时间线。

2025-07-15 15:18:41 524

空空如也

help arxiv背书

Clion运行c++项目链接过程报错求解

ctf中两个图片合在一起