一人剧组时代到来,Seko 2.0通过技术降本增效让AI短剧创作真正落地。

商汤Seko 2.0在行业内率先实现了创编一体与多剧集智能生成,通过突破性的一致性控制技术与国产算力深度适配,将漫剧制作周期缩短近九成。
Seko2.0发布当天,国产芯片寒武纪即完成对商汤自研日日新Seko系列模型的适配。

AI视频生成技术在过去一年经历了过山车般的发展。
从最初惊艳的几秒钟演示,到创作者实际使用时的各种碰壁,行业逐渐从狂热回归理性。
大家发现,仅仅生成一个高质量的镜头并不难,难的是生成一百个连续、连贯且符合逻辑的镜头,并把它们串联成一个完整的故事。
商汤Seko 2.0的发布,正是为了解决这个从玩具到工具的跨越问题。
作为行业首个创编一体、多剧集生成的智能体,Seko自2025年7月上线以来,在短短两个月内用户量突破10万,不到半年聚集了超过20万创作者。
其中,短剧创作者占比30%,漫剧创作者占比20%。
这个高浓度的创作者社区反馈了最真实的需求:我们需要更高效的落地能力,更低的创作门槛,以及能够讲完长故事的工具。
全新的Seko 2.0,是对当前AI影视制作痛点的一次系统性回应。它让一人剧组的构想,开始具备工业化生产的雏形。
创编一体与长内容的逻辑重构
短剧和漫剧赛道的火热无需多言。
巨量引擎的数据显示,今年上半年漫剧供给量以83%的复合增长率持续扩容,流水规模翻了12倍。
市场在呼唤产能,但产能被困在繁琐的工具链中。
以往的AI视频创作,创作者往往需要在多个工具之间反复横跳:用一个工具写剧本,用另一个工具画分镜,再用第三个工具生成视频,最后还要去剪辑软件里对口型。
这种割裂的工作流不仅效率低下,更致命的是信息的损耗——上一个环节的创意,往往在下一个环节的工具切换中走样。
Seko 2.0带来的最大改变是创编一体。
通过全新的UI设计,商汤将视觉效果呈现提升到了核心位置,打造了一种沉浸式的创意体验。
但这不仅仅是好看,更重要的是底层的多剧集生成功能。它支持超长上下文管理,能够一次性支持100集以内剧本的连续创作。
这在AI生成领域是一个巨大的数字。
意味着AI不仅仅是记住了上一秒的画面,而是理解了整个剧本的脉络。
Agent智能调度系统在这里扮演了场记和统筹的角色。在不同的剧集中,人物、场景、道具实现了灵活关联。
比如,主角在第三集受伤了,脸上贴了创可贴,这个妆造细节会随着场景的改变自动保留,直到剧本设定伤愈。
这种跨场景、跨时间的连贯性,是过去AI工具最难以攻克的堡垒。
攻克一致性难题的技术内核
多剧集、跨分镜的角色一致性,一直是AI视频生成的难题。
传统的生成方法通常陷入两个极端的陷阱。
一种是过度拟合,生成的角色与参考图如同复制粘贴,动作僵硬,神态呆板,仿佛一张贴图在背景上平移。
另一种是过度发散,一旦要求角色做出大幅度的动作或复杂的表情,AI就会放飞自我,生成的脸变得面目全非,观众根本认不出这是同一个演员。
Seko 2.0引入了核心技术SekoIDX来破解这一难题。
SekoIDX的创新之处在于,它在扩散模型的高噪阶段引入了负参考图机制。这是一个非常巧妙的思路。通常我们给AI看参考图,是告诉它要画成这样。而负参考图的引入,是在告诉AI不要完全画死成这样。
这种机制既保证了角色在多剧集、跨分镜中的特征一致性,锁住了人物的魂,又避免了内容与参考图在像素级别上的过度相似,赋予了人物形的自由。
正因如此,Seko 2.0生成的角色在响应不同表情、姿态、场景等指令时,依然能保持高度的稳定性。人物不再是僵硬的纸片人,而是有了演技的数字演员。
在此基础上,SekoTalk技术解决了另一个痛点:口型同步。
传统的数字人技术在处理单人播报时表现尚可,但一旦进入影视级的复杂场景,比如多语言切换、多人交互,就会出现严重的音画游离现象。
SekoTalk是业内首个支持超过2人对口型的解决方案。它不再局限于单人的正脸对齐,而是通过一系列创新设计,实现了从单人口形到多人互动的高度精准声形同步。
无论是日常的两人对话,还是激烈的多人争吵,甚至是集体报数这种对同步率要求极高的场景,SekoTalk都能实现精准的匹配。
这让多人场景的制作能够一气呵成,不再需要后期逐帧调整,极大地解放了创作者的精力。
效率提升与成本控制的经济学
底层技术的突破,最终都要转化为生产力的飞跃和成本的降低。
在传统工作流中,一支团队要完成一部50集的作品,通常需要耗费3个月以上的时间。即使使用了早期的AI工具,由于废片率高、一致性差,修修补补的时间往往比生成的时间还长。
借助Seko 2.0,漫剧制作周期可缩短80%~90%。
这是一个数量级的提升。它让创作者从海量的素材管理和繁琐的修补工作中解脱出来,将精力真正回归到剧本和创意本身。
但效率提升只是硬币的一面,另一面是成本。
AI很强,但用起来很贵。这是很多从业者的心声。AI短剧、漫剧的多剧集创作涉及海量分镜。
算一笔账:仅生成一个5秒的视频,就需要接近10万token的算力消耗。如果一部剧需要一键生成10到20个分镜,总token需求量将高达100到200万。
对于个人创作者或小型工作室来说,这是一笔不菲的开支。
商汤为此提出了Phased DMD(Phased Distillation from Mixture of Experts)蒸馏技术。这是一套多步蒸馏框架,旨在降低多剧集生成的综合成本。
它的核心思想是将分阶段蒸馏与专家混合模型(MoE)相结合。
简单来说,就是让不同的模型专家专精于生成流程的不同阶段。有的专家擅长构图,有的专家擅长上色,有的专家擅长动态优化。
这种分工协作的模式,在不增加推理成本的前提下,显著提升了模型的整体能力与效率上限。它就像一个配合默契的流水线,比一个全能但臃肿的大模型干活要快得多,也省得多。
在交互场景下,延迟是体验的杀手。
为了解决这个问题,商汤开源了行业首个能实现实时视频生成的推理框架LightX2V。
LightX2V通过DiT(Diffusion Transformer)蒸馏加速、轻量化VAE(Variational Autoencoder)、稀疏注意力等一系列硬核优化,实现了低成本、强实时的视频生成。
数据最能说明问题。LightX2V在消费级显卡上,能够以不到5秒的时间生成5秒的视频。与之形成鲜明对比的是,Sora等同类模型生成同样时长的视频往往需要数分钟。
这种准实时的生成效率,彻底改变了创作的反馈循环。创作者可以即时看到结果,即时调整,而不是每次修改都要在这个等待的黑箱中煎熬。
LightX2V目前累计下载量已超350万次,这证明了全球创作者对高效工具的渴求。
国产算力的深度适配与突围
在Seko 2.0的发布中,有一个不可忽视的亮点,那就是对国产芯片的全面适配。
长期以来,AI算力被国际巨头垄断,这不仅带来了成本的压力,更潜藏着供应链的安全风险。
商汤选择了一条难走但正确的路:与国产芯片厂商寒武纪(Cambricon)等进行深度合作,开启AI视频创作的低成本时代。
LightX2V已完成寒武纪、沐曦等国产芯片的适配,实现了视频生成模型的全国产化部署。
这种适配不是简单的能跑,而是做到了跑得好。
从效果对比来看,Seko在国产化芯片平台上能够以相近的时间,实现和国际芯片平台一致的生成效果。
具体数据显示,国际芯片平台运行1秒可生成1.25秒视频,而国产芯片平台运行1秒可生成1.0625秒视频。
虽然在绝对数值上还有微小的差距,但考虑到两者在生态积累上的巨大时间差,这个成绩已经足够令人振奋。
且随着国产芯片性能的持续优化与生态成熟,这一差距将被迅速填平。
商汤日日新Seko系列模型,包括SekoIDX、SekoTalk等图像与视频生成多模态模型,已全部完成对国产AI芯片寒武纪的适配。
这标志着国产算力对AIGC核心场景的支持,实现了从单纯的语言模型到复杂多模态生成的关键跨越。
为了更好释放国产算力优势,Seko系列模型与LightX2V框架在设计之初就引入了硬件友好的创新机制。
低比特量化、压缩通信、稀疏注意力等技术的应用,将推理性能提升了3倍以上。
商汤与寒武纪的合作不仅停留在适配层面,更深入到了软硬件的联合优化。
双方在长序列处理、低比特计算、算子融合等方向持续发力,旨在通过提升算力利用率来降低模型运行的资源占用。
未来Seko的创作者将拥有性价比极高的国产化方案选择。
内容生态的重塑与展望
技术最终是为了服务于内容。
Seko的应用边界正在持续拓展。从普通大众创作者、专业个人创作者到小型工作室,甚至延伸到了顶尖的影视行业。
在漫剧和短剧领域,Seko已成功孵化出一系列爆款。
真人短剧《婉心计》强势登顶抖音AI短剧榜第一,《我在山顶建末日堡垒》、《隐神录》等作品也收获了广泛关注。

这些作品证明了AI生成的内容不再是粗糙的实验品,而是已经具备了商业变现的能力。
在高品质影视工业领域,Seko与长江电影集团达成了战略合作。

双方将共同探索AIGC+影视的融合创新,预计明年推出荆楚文化历史故事系列短剧,并联合孵化院线级AIGC电影。
这标志着AI创作工具正式深入到了专业影视生产流程的核心地带。
Seko 2.0首先服务于对成本敏感、对效率渴求的短剧和漫剧创作者,帮助他们释放想象力。随着能力的不断进化,产出的内容质量将逐步向精品化迈进。
Seko 2.0的发布,让那些原本不具备创作能力但拥有创作想象力的人,真正意义上走入到了创作生态中。
免费试玩:
https://seko.sensetime.com/explore
https://sekotalk.com/
LightX2V:
https://github.com/ModelTC/LightX2V
1096

被折叠的 条评论
为什么被折叠?



