01
迪士尼的“成本暴跌”背后:多模态AI的工业化流水线
迪士尼宣布2026年推出首部AI主导电影,制作成本下降80%,其核心依赖的是多模态AI的“输入-处理-输出”全栈能力。
输入:系统接受剧本文本、分镜草图、演员动作捕捉数据等多种异构信息。
处理:类似GPT-5的多模态模型统一理解文本、图像、视频的语义,并生成中间指令。
输出:系统自动生成3D场景、角色动画和特效渲染(例如,使用RunwayML可以一键生成分镜)。

1. GPT-5的多模态本质:跨格式的“通用数据解析器”
GPT-5的核心突破在于打破模态壁垒,实现文本、图像、音频、视频的联合理解与生成。
跨模态对齐: 将不同格式的数据映射到统一的语义空间(类似于将JSON/XML/YAML转换为通用DTO对象)。例如,理解“悲伤”这个概念,既能关联文本描述“眼眶湿润”,也能对应音频中的颤音和视频中的低头动作。
动态记忆上下文:系统能够像分布式缓存一样存储用户历史偏好(如导演要求“皮克斯风格”),并在不同的会话中复用这些信息。
案例:迪士尼利用AI生成《星球大战》角色的数字分身,通过687个面部肌肉模拟点精确还原即兴表演,情绪识别精度达到92%。

2. 技术实现:稀疏混合专家架构(SMoE)的“模块化分工”
GPT-5采用SMoE架构来解决多模态计算的高效性问题,其理念类似于微服务拆分。
传统密集架构问题:所有参数都需要激活,导致高能耗;任务耦合度高,难以扩展。
SMoE架构解决方案: 按需调用专家模块;模块解耦(例如,视频生成模块可以独立运作)。
分工逻辑:例如,当输入指令“生成赛博朋克城市夜景视频”时,系统会将任务路由至「光影特效」、「建筑建模」、「物理模拟」等专门的专家模块群。对于简单任务(如字幕生成),则仅调用轻量级模块,能耗可降低60%以上。

3.对内容产业的颠覆:从“线性生产”到“实时生成”
(1)成本结构重构
传统流程需剧本→分镜→拍摄→后期(周级周期),而AI驱动流程实现指令→实时输出:
| 环节 |
传统成本占比 |
AI替代方案 |
| 角色设计 |
30% |
Midjourne生成→人工微调 |
| 场景搭建 |
25% |
PrometheanAI文本转3D场景 |
| 特效渲染 |
40% |
RunwayM一键生成 |
迪士尼借助此模式将《莫阿纳》真人版制作周期压缩60%。


最低0.47元/天 解锁文章
825

被折叠的 条评论
为什么被折叠?



