文档秒变演讲视频还带配音！开源Agent商业报告/学术论文接近人类水平

转载于 2025-07-11 12:01:42 发布 · 197 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247809398&idx=4&sn=7b7c2b7c1bfde220d47bfd5836a3ba0c&chksm=e988dcec973969b43b50d3f40e45bd7f01521787dad80ddc4aea2071469c88edc76545c9aeb0&scene=126&sessionid=0

部署运行你感兴趣的模型镜像

PresentAgent团队投稿
量子位 | 公众号 QbitAI

现在的AI Agent在文档生成PPT或视频方面，要想像人一样，把文字、图片、讲解、音视频全都串起来讲清楚，还真不太行。

来自澳大利亚人工智能研究所、利物浦大学、拉筹伯大学的团队联合提出PresentAgent，一个多模态智能体，旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示，实现一个完整集成的视频体验，模拟人类演讲者的信息传递方式。

打工人福音啊。

它能够生成高度同步的视觉内容和语音解说，逼真模拟人类风格的演示，比如商业报告、技术手册、政策简报或学术论文等。

团队在测试集上进行了验证，结果表明，PresentAgent在所有评估指标上接近人类水平的表现。

方法：模块化生成框架PresentAgent

将长篇文档（如商业报告、技术手册、政策简报或学术论文）制作成高质量演示视频通常需要耗费大量人工精力。

这个过程涉及内容筛选、幻灯片设计、讲稿撰写、语音录制，以及将所有内容整合成一个连贯的多模态输出。

该任务的挑战远超传统的摘要或文本转语音系统，因为它需要：

选择性内容抽象
基于布局的视觉规划
视觉与语音的精确多模态对齐

为应对上述挑战，团队提出了一个模块化生成框架——PresentAgent，如图1所示。

其流程包括：1、将输入文档语义分块（通过大纲规划）；2、为每个语义块生成具有布局指导的幻灯片视觉内容；3、将关键信息重写为口语化解说文本；4、语音合成后，与幻灯片进行时间同步，最终生成一个结构良好、讲解清晰的视频演示。

△图1：PresentAgent概览

该系统以文档（如网页）为输入，经过以下生成流程：（1）文档处理（2）结构化幻灯片生成（3）同步字幕创建（4）语音合成。

最终输出为一个结合幻灯片和同步讲解的演示视频。图1中紫色高亮部分表示生成过程中的关键中间输出。

输入端的文档形式如图2所示，展示了评估基准中的文档多样性。

△图2：评估基准中的文档多样性

如图3所示，左侧给定多样的输入文档，如论文、网站、博客、幻灯片或PDF，PresentAgent能生成带讲解的演示视频，输出为同步的幻灯片和音频。

图3右侧，团队设计了PresentEval，一个双路径的评估框架：

客观测验评估（上），通过Qwen-VL进行事实理解检测；

主观打分评估（下），借助视觉-语言模型从内容质量、视觉设计与语音理解等维度进行评分。

△图3：方法框架概览

值得一提的是，整个流程具有可控性和领域适应性，适用于多种文档类型和演示风格。

评估：接近人类表现水平

为有效评估此类复杂多模态系统，团队整理了一个涵盖教育、金融、政策与科研等多个领域的30组人工制作的“文档-演示视频对”的测试集。

同时，我们设计了一个双路径评估策略：一方面使用固定选择题测试内容理解；另一方面通过视觉语言模型打分，评估视频的内容质量、视觉呈现与观众理解程度。

考虑到这种多模态输出的评估难度，团队引入了PresentEval，一个由视觉-语言模型驱动的统一评估框架，从以下三个关键维度全面打分：内容忠实度（Content Fidelity）、视觉清晰度（Visual Clarity）、观众理解度（Audience Comprehension）。

评估采用基于提示的方式进行。团队在一个精心整理的包含30对“文档-演示”样本的数据集上进行了实验验证，如下图所示。结果表明，PresentAgent在所有评估指标上接近人类水平的表现。

这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力。

这表明将语言模型、视觉布局生成与多模态合成结合，能够实现可解释、可扩展的自动演示生成系统。

论文链接：
https://arxiv.org/pdf/2507.04036
代码仓库：
https://github.com/AIGeeksGroup/PresentAgent

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。