借助大模型将文档转换为视频

soso1968

已于 2024-09-12 09:27:01 修改

阅读量1.4k

点赞数 11

文章标签：音视频

于 2024-09-12 09:01:30 首次发布

本文链接：https://blog.youkuaiyun.com/segwy/article/details/142164006

版权

利用传统手段将文档内容转换为视频，比如根据文档内容录制一个视频，不仅需要投入大量的时间和精力，而且往往需要具备专业的视频编辑技能。使用大模型技术可以更加有效且智能化地解决上述问题。本实践方案旨在依托大语言模型（Large Language Models, LLMs）和多模态应用技术，向您展示如何将文档自动转换为视频，并提供配套的完整代码包，帮助您快速入门上手本实践教程。

方案概览

文档切片：首先，我们运用大模型来总结文档标题，将文档划分为不同段落。并为每个段落生成一个概括性的段落标题。
生成演示文稿：紧接着，我们整合各部分内容，包括标题、正文以及图片等，利用这些素材生成演示文稿图片。
生成讲解语音与字幕：接下来，我们采用多模态大模型技术，将文字材料转换成音频文件，并依据音频的播放时长自动生成配套的文字字幕。
生成视频：最后我们将所有演示文稿图片剪辑为视频，并将音频与字幕文件嵌入视频。

准备工作

获取API-KEY，用于调用阿里云百炼提供的大模型。

百炼为新用户提供了免费额度，额度消耗完后按 token 计费。您可以查看计费说明获取计费详情。
配置环境变量，以降低API-KEY的泄露风险。您可以参考配置API-KEY到环境变量，根据您的操作系统选择适合的环境变量配置方法。

本实践教程依赖音视频处理工具FFmpeg和演示文稿制作工具Marp，请您使用如下示例代码安装这两个工具：

MacOS

Windows

# 您需要在终端运行如下代码
# 请您配置国内镜像源下载
# 安装FFmpeg
brew install ffmpeg
# 安装Marp
# 如安装出现网络问题，请配置国内镜像源或使用cnpm替代npm
brew install node
npm install -g cnpm --registry=https://registry.npmmirror.com
cnpm install -g @marp-team/marp-cli

本实践教程中的图片生成依赖于浏览器引擎渲染，请您确保您的工作环境中安装了浏览器应用，如Chromium，Google Chrome，Microsoft Edge等。

本实践教程基于Python代码，请您确认您的工作环境中已经安装Python，并安装本实践教程所需的Python库，代码示例如下：

MacOS

Windows

# 您需要在终端运行如下代码
# 为了提高下载速度，推荐您配置国内镜像源
pip install --upgrade pip
pip install pyppeteer
pip install dashscope
pip install --upgrade dashscope
pip install pydub
pip install natsort
pip install moviepy
pip install ffmpeg-python
pip install --upgrade urllib3 requests

快速体验

如果您希望快速尝试，可以直接下载本教程中提供的完整代码到您的本地工作环境中，并在本地执行如下命令：

MacOS

Windows

# 解压缩
unzip doc2video.zip
# 进入文件目录
cd doc2video
# 更改权限
chmod +x run.sh
# 运行脚本
./run.sh

为了帮助您理解方案流程，并能够根据实际需要进行个性化定制，下面我们将为您介绍如何从 0 开始，逐步构建一个文档生成视频的工程。

步骤一：准备素材

请您将文档中的文字、Markdown格式的图片链接等内容写到Markdown文件中，并以section_1.md的格式命名，保存到input文件夹中。我们将下面提供的section_1.md文件作为示例输入文档。

section_1.md

您可以直接使用完整代码中我们提供的图片、风格文件等素材，并将其全部保存到style文件夹中。

最低0.47元/天解锁文章