利用传统手段将文档内容转换为视频,比如根据文档内容录制一个视频,不仅需要投入大量的时间和精力,而且往往需要具备专业的视频编辑技能。使用大模型技术可以更加有效且智能化地解决上述问题。本实践方案旨在依托大语言模型(Large Language Models, LLMs)和多模态应用技术,向您展示如何将文档自动转换为视频,并提供配套的完整代码包,帮助您快速入门上手本实践教程。
方案概览
-
文档切片:首先,我们运用大模型来总结文档标题,将文档划分为不同段落。并为每个段落生成一个概括性的段落标题。
-
生成演示文稿:紧接着,我们整合各部分内容,包括标题、正文以及图片等,利用这些素材生成演示文稿图片。
-
生成讲解语音与字幕:接下来,我们采用多模态大模型技术,将文字材料转换成音频文件,并依据音频的播放时长自动生成配套的文字字幕。
-
生成视频:最后我们将所有演示文稿图片剪辑为视频,并将音频与字幕文件嵌入视频。
准备工作
-
获取API-KEY,用于调用阿里云百炼提供的大模型。
百炼为新用户提供了免费额度,额度消耗完后按 token 计费。您可以查看 计费说明获取计费详情。
-
配置环境变量,以降低API-KEY的泄露风险。您可以参考配置API-KEY到环境变量,根据您的操作系统选择适合的环境变量配置方法。
-
本实践教程依赖音视频处理工具FFmpeg和演示文稿制作工具Marp,请您使用如下示例代码安装这两个工具:
MacOS
Windows
# 您需要在终端运行如下代码 # 请您配置国内镜像源下载 # 安装FFmpeg brew install ffmpeg # 安装Marp # 如安装出现网络问题,请配置国内镜像源或使用cnpm替代npm brew install node npm install -g cnpm --registry=https://registry.npmmirror.com cnpm install -g @marp-team/marp-cli
-
本实践教程中的图片生成依赖于浏览器引擎渲染,请您确保您的工作环境中安装了浏览器应用,如Chromium,Google Chrome,Microsoft Edge等。
-
本实践教程基于Python代码,请您确认您的工作环境中已经安装Python,并安装本实践教程所需的Python库,代码示例如下:
MacOS
Windows
# 您需要在终端运行如下代码 # 为了提高下载速度,推荐您配置国内镜像源 pip install --upgrade pip pip install pyppeteer pip install dashscope pip install --upgrade dashscope pip install pydub pip install natsort pip install moviepy pip install ffmpeg-python pip install --upgrade urllib3 requests
快速体验
如果您希望快速尝试,可以直接下载本教程中提供的完整代码到您的本地工作环境中,并在本地执行如下命令:
MacOS
Windows
# 解压缩
unzip doc2video.zip
# 进入文件目录
cd doc2video
# 更改权限
chmod +x run.sh
# 运行脚本
./run.sh
为了帮助您理解方案流程,并能够根据实际需要进行个性化定制,下面我们将为您介绍如何从 0 开始,逐步构建一个文档生成视频的工程。
步骤一:准备素材
请您将文档中的文字、Markdown格式的图片链接等内容写到Markdown文件中,并以section_1.md的格式命名,保存到input文件夹中。我们将下面提供的section_1.md文件作为示例输入文档。
section_1.md
您可以直接使用完整代码中我们提供的图片、风格文件等素材,并将其全部保存到style文件夹中。