可灵团队提出MIDAS：压缩比64倍、延迟低于500ms，多模态互动数字人框架实现交互生成新突破！

原创

于 2025-09-24 17:22:49 发布 · 670 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #可灵

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而，现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大，无法实时响应，要么只能处理单一模态输入，缺乏真正的交互能力。

为了解决这些问题，快手可灵团队（Kling Team）提出了一种名为 MIDAS（Multimodal Interactive Digital-human Synthesis）的新型框架，通过自回归视频生成结合轻量化扩散去噪头，实现了多模态条件下实时、流畅的数字人视频合成。该系统具备三大核心优势：

64×高压缩比自编码器，将每帧压缩至最多60个token，大幅降低计算负荷；

低于500ms端到端生成延迟，支持实时流式交互；

4步扩散去噪，在效率与视觉质量间取得最佳平衡。

该项研究已被广泛实验验证，在多语言对话、歌唱合成甚至交互式世界建模等任务中表现出色，为数字人实时交互提供了全新解决方案。

论文地址：https://arxiv.org/pdf/2508.19320
主页地址：https://chenmingthu.github.io/milm/

一、核心创新

多模态指令控制机制

MIDAS 支持从音频、姿态到文本等多种输入信号。通过一个统一的多模态条件投影器，将不同模态编码到共享潜在空间，形成全局指令令牌，构建 frame-by-frame 的 chunk 注入，引导

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

快手技术

关注关注

11
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

参与评论您还未登录，请先登录后发表或查看评论

博客

生成式强化学习在广告自动出价场景的技术实践

09-24

4462

在实时竞价（RTB）广告系统中，广告出价模块作为连接广告主需求与流量匹配的核心枢纽，需要将广告主的营销目标（如转化率、ROI）转化为动态竞价决策。作为竞价机制的中枢神经，广告出价不仅直接影响广告主的投放效果，也是广告排序分的关键组成模块，进而影响平台侧的流量分配效率。广告出价的面临的核心挑战可以概括为以下三点：1. 既要花钱，又要省着花：广告主既需控制单日花费不超预算，又需尽可能降低每次转化（如购买、下载等）的成本。

博客

NeurIPS 2025 | 快手联合南开提出情感树推理新方法，显著提升多模态大模型情感理解能力

12-05

345

你是否希望AI不仅能“看见”画面，更能“读懂”人心？传统方法在分析视频情感时，往往只能进行基础分类，难以理解复杂情感的动态变化。针对这一挑战，快手可灵团队与南开大学提出了创新解决方案——VidEmo，让AI首次实现“情智兼备”的情感推理。🧠 核心创新：像人一样“分步推理”研究团队提出了一个基于情感线索引导的树状推理框架。VidEmo不再试图一步到位，而是模拟人类的认知过程，分三个阶段层层递进：🌟感知基础属性🌟分析表情信号🌟综合推断高层情感

博客

NeurIPS 2025 | 让扩散模型“评价”自己：中科院与快手可灵团队提出隐式奖励建模新范式

12-04

845

用 AI 画图总遇到 “差口气” 的情况 —— 明明按指令描述了，生成的图却不符合审美，要么颜色奇怪，要么细节拉胯… 原来问题出在 “偏好优化” 上！中科院自动化所和快手可灵团队的新研究，用 LRM+LPO 直接解决了传统方法的坑，目前该论文已被NeurIPS 2025 录用。

博客

让搜索更“懂你”：快手自研UniDex与UniSearch实现新一代工业级搜索

12-03

738

博客

能看清，更要看懂：MME-VideoOCR全面评估MLLM视频OCR能力

12-02

745

看视频想提取文字时，AI 总掉链子 —— 运动模糊认不清字幕，弹幕叠着文字就懵，跨帧找个时间点的文字更是难上加难…快手可灵团队联合北京大学、清华大学、中科院自动化所等单位提出了 MME-VideoOCR，该 Benchmark 致力于系统评估并推动 MLLM 在视频 OCR 中的感知、理解和推理能力，目前该论文已被NeurIPS 2025会议录用。💡这基准到底有多能打？▪️ 10 大类 25 个子任务▪️ 1464 个视频 + 2000 条标注▪️ 测遍 18 个主流模型

博客

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

11-28

557

博客

当推荐系统真正“懂你”：快手团队在NeurIPS 2025提出新成果TagCF

11-28

1006

博客

快手&南大发布代码智能“指南针”，重新定义AI编程能力评估体系

11-27

921

快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-LINK 合作推出 SWE-Compass ——一个涵盖8大任务类型、8大编程场景、10种编程语言的代码智能统一评估框架，它包含2000个高质量实例，在任务类别、编程场景和语言方面实现了良好的平衡，为评估大型语言模型在实际软件工程任务中的能力提供了一个严格且具有代表性的评估框架。

博客

NeurIPS 2025 | 可灵团队提出Flow-GRPO, 首次将在线强化学习引入流匹配生成模型

11-26

638

尽管流匹配模型已成为图像与视频生成的基石，但在处理复杂场景与文本渲染时仍面临挑战。为此，港中文MMLab、清华大学与快手可灵团队联合提出了Flow-GRPO，开创性地将在线强化学习引入流匹配模型训练，破解复杂场景生成难题。核心实验效果：✅ 复杂组合生成能力大幅提升✅ 文字渲染精准无误✅ 更懂人类偏好✅ 有效抑制奖励黑客行为

博客

NeurIPS 2025 | 从数据微调到反馈优化！可灵团队提出基于人类反馈的视频生成训练范式

11-25

413

打破视频生成天花板！香港中文大学、清华大学和快手可灵团队联合发表论文《Improving Video Generation with Human Feedback》, 提出了面向基于流匹配的现代视频生成模型的综合对齐管线，让模型真正学会“什么是好视频”。该管线包含四个核心组件:1. 大规模人类偏好数据集2. 视频奖励模型VideoReward3. 评测基准VideoGen-RewardBench4. 视频偏好对齐算法

博客

超越 VTM-RA！快手双向智能视频编码器BRHVC亮相NeurIPS2025

11-24

652

快手音视频技术团队提出了全新的双向智能视频编码方法 —— BRHVC。该方法不仅在压缩性能上显著超越业内最先进的端到端智能视频编码方案，也成功超越最新标准的 VTM-RA 编码。文章亮点：从低时延模式到双向模式的扩展创新的双向智能视频编码框架

博客

闪耀NeurIPS 2025！快手13篇论文入选，Spotlight 成果跻身前三！

11-19

900

13篇入选，1篇Spolight！快手在 NeurIPS 2025 战绩亮眼！这些论文涵盖视频生成与优化、多模态大模型评估与鲁棒性研究、视频压缩与表征、情感计算与跨模态同步、以及实时视频流分析与应用等方向。论文链接和项目地址都整理好放至文中啦，快来点击阅读吧～

博客

快手可灵提出IMBA Loss，无需新数据，几行代码大幅提升生成模型概念组合成功率

11-14

891

你是否有许多天马行空、奇思妙想的创意，因为生成模型的概念组合能力有限而无法实现？快手可灵团队最新提出的IMBA Loss帮助你美梦成真。

博客

快手统一特征抽取框架KaiFG，用Python的优雅，唤醒C++般的性能狂潮！

11-13

786

当算法工程师困于异构特征框架的碎片化泥潭，当创新灵感被30分钟编译枷锁牢牢禁锢 —— 快手算法引擎团队自研的「特征工程超导体」KaiFG，破局而来！这套框架将赋能更多业务团队，让创新不再受技术枷锁所困，让每一行代码都能释放极致效能。

博客

从“拦路虎”到“修路工”：基于AhaEdit的广告素材修复

11-07

861

“素材又被拒了，到底哪里不行？”，你知道有问题，却不知道问题在哪？别着急！快手AhaEdit革新广告审核：从风险拦截到自动修复，让违规广告分钟级“自愈”。✨“一键过审”正在成为现实如今的AhaEdit已经能够支持多种模态的素材修复：• 文本编辑：精准删除或替换违规词汇• 图像编辑：文字擦除、物体擦除/替换、人体表情/姿态调整、背景替换• 视频编辑：擦除/替换违规元素

博客

快手&南大联合发布自适应推理框架HiPO，突破LLM“过度思考”困局

11-06

585

别想太多，其实AI可以又简单又轻松！HiPO框架在简单问题上秒回，在复杂问题上深思，实现效率与准确率的双赢

博客

端到端短视频多目标排序机制框架EMER详解

10-31

7712

近日，快手正式发布全新推出的端到端多目标融合排序框架——EMER。该框架以其“会比较、自进化”的核心能力，重构了传统依赖人工经验公式的推荐模式，在快手主站App与极速版应用中实现了七日留存提升0.13%~0.2%、用户停留时长提升1.2%~1.4% 的显著效果，为行业推荐系统的智能化升级提供了可落地的解决方案。

博客

KwaiKAT AI开发挑战赛火热开启！赢取iPhone 17等豪华大奖！

10-25

228

借助 KAT-Coder-Pro V1 模型强大的编程能力开发一个原创项目，释放你的创造力，赢取iPhone17、大疆Pocket3、Switch等丰厚大奖！

博客

兼顾效率和性能！快手低代码平台在大型活动中的技术实践！

09-29

677

本文以CNY内容会场为例，系统阐述了积木平台在架构设计、性能优化与系统集成等方面的技术实践与落地成果。通过体系化的技术架构，积木平台有效平衡了高效搭建与业务创新之间的关系，通过SSG静态生成、组件分级渲染与异步渲染等关键技术，解决了300+组件加载的页面性能瓶颈，实现了大规模组件场景下的流畅体验。单一技术问题的解决方案往往并不复杂，但当其置于低代码平台这一复杂架构背景下时，技术挑战呈指数级上升。期望本文所分享的经验与思路，能为面临类似问题的技术团队提供有益的参考。

博客

可灵AI数字人来了！快手重磅发布Kling-Avatar，面向多模态指令理解与控制的数字人长视频生成新范式

09-19

788

从“对口型”迈向“会表演”，快手可灵团队探索出一条全新的数字人生成范式，实现了在分钟级长视频中生动细腻、情绪饱满、身份一致的影视级演绎。Kling-Avatar现已集成到可灵平台，欢迎移步可灵平台体验新版数字人应用，看看你的声音和想法如何被一镜到底地演绎出来。近年来，快手可灵团队持续深耕多模态指令控制与理解的数字人视频生成解决方案。