(以下借助 DeepSeek-R1 & ChatGPT 辅助整理)
一、基础模型与算法突破 💡
1. Google 发布 Gemini 2.5 Flash 和 Pro(6月17日)
事件描述
6月17日,Google DeepMind 正式发布了稳定版本的 Gemini 2.5 Flash 和 Gemini 2.5 Pro,同时推出 Gemini 2.5 Flash‑Lite 预览版。Flash 版本优化了推理效率,Pro 版本则针对代码、数学、复杂推理与长上下文进行了深度优化。
技术亮点
- Pro 支持百万 Token 上下文窗口,增强推理能力;
- Flash 降低成本、适应高吞吐场景;
- Flash‑Lite 专为超低延迟、规模部署设计。
观点
Google 此举延续了 Gemini 定位——覆盖从快速响应到复杂任务的多样化使用场景。这一发布奠定了 AI 模型更广泛嵌入开发与生产任务的基础,而 Flash‑Lite 的预览意味着边缘应用将进一步普及。
2. Gemini 2.5 支持机器人具身智能(6月24日)
事件描述
6月24日,Google 发布新文章,展示 Gemini 2.5 Flash 与 Pro 在图像理解、轨迹预测与机器人控制方面的新能力,包括指向结构物体、读表盘、规划路径等功能。
技术亮点
- 精细空间定位能力;
- 跨帧对象跟踪与概念检测(如“溢出液体”);
- 生成机器人控制代码实现零样本操作。
观点
这一进展标志 Gemini 进入具身智能领域,支持从视觉理解到控制指令的闭环。这种多模态整合将推动 AI 代替人类执行日常物理任务,接近“超级员工”阶段。
3. Meta 发布 V‑JEPA 2 世界模型(约6月11–17日)
事件描述
Meta AI 推出 V‑JEPA 2,一款通过自监督大规模视频预训练实现“理解—预测—规划”三位一体的世界模型。
-
训练自互联网视频超百万小时;
-
在 Epic-Kitchens 任务准确率提高 44%;
-
用 62 小时机器人视频训练,即能零样本操作机械臂,抓取成功率达 80%。
技术亮点
- JEPA 架构:在隐藏空间中预测,不依赖逐像素生成;
- 跨视频理解与物理推理能力显著增强;
- 已开源模型与基准,有助产业落地。
观点
V‑JEPA 2 是世界模型研究的重要里程碑,突破了传统仅靠文本训练模型的局限,引领 AI 向通用机器人和具身智能转变。开源策略也有望促进学术界与产业界迅速协作共建。
4. 日本 NAIT 提出 SeqPE,解决 Transformer 长记忆瓶颈
事件描述
NAIT(日本人工智能技术研究所)提出 SeqPE(可学习位置编码序列),使 Transformer 能处理任意长度文本和图像内容。Wikitext‑103 困惑度下降 0.6 点,ImageNet 分类准确率提升 2.1%。
观点
SeqPE 提供简洁高效的上下文扩展手段,为未来多模态模型处理长序列信息提供了沃土,有望减少长上下文任务的复杂性和计算成本。
二、产业落地与商业化
5. 华为发布盘古大模型 5.5 与昇腾云算力(6月20日)
事件描述
华为在 HDC2025 上推出盘古模型 5.5,五大能力模块全面升级:NLP、CV、多模态、预测与科学计算;同时推出基于 384 昇腾 NPU 的 CloudMatrix 超节点。
应用成效
-
宝武钢铁高炉能耗优化,减少燃料 10%;
-
天津能源供热节能提升 10%;
-
广汽自动驾驶数据采集替代高成本路采。
观点
华为展现出“算法+芯片+场景”的闭环优势,将国产 AI 模型推向工业级应用。CloudMatrix 超节点体系强化了国产算力基础,在制造、能源等行业的实际节能应用尤为亮眼。
6. 腾讯开源 混元3D 2.1(CVPR2025)
事件描述
腾讯在 CVPR2025 发布并开源混元3D 2.1,支持单图生成高逼真 3D 内容(30秒完成),引入 PBR 物理渲染,材质胜出率 78%,Hugging Face 下载超 180 万次。
观点
这一技术可显著降低游戏、影视、电商行业的 3D 内容生产门槛,助力国产开源生态崛起,加速本地技术替代国际平台。
7. 字节跳动推出 Seaweed APT2 实时视频生成
事件描述
Seaweed APT2 基于自回归对抗训练,在一块 H100 GPU 上实时生成 24fps、736 × 416 分辨率视频,支持 3D 视角操控与虚拟角色控制。
观点
Seaweed APT2 是 AI 动态交互时代的先声,其技术路线从静态生成迈向动态可控的视频创作,为直播、互动影视、虚拟主播铺平了道路。
8. OpenAI 多云合作与社交应用扩展
事件描述
-
OpenAI 终止与 Azure 独家合作,转向 Google Cloud,并与软银、Oracle 签署数十亿美元算力协议;
-
为 WhatsApp 推出文字/语音生成图像功能。
观点
一方面,多云策略能分散风险并优化成本,另一方面,AI 嵌入社交流量巨大、用户黏性高,其推出的图像生成将对内容创作方式产生持续影响。
9. Anthropic 发布 Claude 4 系列
事件描述
Anthropic 推出 Claude 4 Opus4 与 Sonnet4,新增多模态分析与自动化流程功能,强调合规安全,响应欧盟 AI 法规需求。
观点
在企业级市场,技术力量与安全保障并重;Anthropic 的合规倾向强化了其企业形象,可为更多行业客户提供可监督、可信赖的 AI 方案。
10. OpenAI Codex 升级开发者工具
事件描述
Codex 增加多版本代码输出功能,优化容器设置反馈进度与任务取消体验。
观点
这些提升将显著降低编程调试成本,使 AI 工具更贴合开发者实际需求,加速 AI 开发链的生态整合。
三、硬件与算力进展
11. AMD 发布 Instinct MI350 GPU(2025 Q3 预计上市)
事件描述
AMD 宣布 Instinct MI350,配备 288GB 显存、浮点吞吐为竞品的两倍,支持 CDNA3 架构与开放 ROCm 7,配套推出 Helios AI 机架和云服务。
观点
这是 AMD 在 AI 高性能算力领域的重要布局。ROCm 开放生态与 MI350 的高性价比能为边缘计算和私有云部署提供更灵活选择,对抗 Nvidia 的市场垄断格局。
结语:三角协同助推 AI 全面进化
本周 AI 发展呈现“算法—产业—算力”协同态势:
-
算法突破:V‑JEPA 2 与 SeqPE 推动具身智能与长上下文任务质变;
-
产业落地:从工具到流程重构,OpenAI、华为、Anthropic 展现多样应用路径;
-
硬件驱动:AMD、华为强化开放算力基础,边缘与工业部署更具弹性。
参考文献