肝了4天，我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文

以下是「豆包MarsCode 体验官」优秀文章，作者X2046。

我们都知道外网上有很多优秀的视频教程平台，比如 Coursera 和 deeplearning.ai。尤其是后者，由吴恩达老师与OpenAI、Langchain、LlamaIndex、AutoGen等公司和作者合作，推出了一系列广受好评的LLM教程，如Prompt Engineering、Langchain教程、LlamaIndex教程和AutoGen教程。deeplearning.ai 的课程紧跟时下热点，是大语言模型爱好者和从业者不可或缺的资源。然而，deepleaning.ai 的课程通常没有中文字幕，这无疑提高了学习的门槛。即使有些同学坚持学习，也可能因为语言障碍只能学到皮毛。我肝了4天，我成功地将这些课程转换成流畅自然的普通话。话不多说，让我们直接看看下面的效果视频。

https://www.ixigua.com/7386982418232574464?utm_source=iframe_share

下面我将详细介绍实现的过程。本文以 deeplearning.ai 上的 ChatGPT Prompt Engineering for Developers 课程为例，通过下载视频和字幕、使用LLama3和反思策略翻译字幕、然后使用 ChatTTS 将字幕转换为流畅的普通话，最终通过 FFmpeg 将字幕、音频和视频合并在一起。你或许会有疑问为什么我的TTS说话如此流畅，音色如此统一？且听我娓娓道来。如何下载视频和字幕文件不在本文讨论范围，本文仅作为教育用途。

注：本文中有很多关于字幕处理和音视频处理的库都是与MarsCode交互得知，我本人对字幕和音视频处理并不是很了解～，如果其中对于音视频处理有疑问的地方，还望指出，感谢～

1. ChatTTS

ChatTTS最近开源后引起了广泛关注，相信大家已经有所耳闻。我在周末简单学习了一下，发现其使用非常简单。你可以先去官网chattts体验一下生成的语音，非常自然和流畅，可以说非常丝滑自然了。

按照官方ChatTTS安装，注意你可能需要使用conda或者venv提前建立虚拟环境，此处按下不表。

pip install git+https://github.com/2noise/ChatTTS

如果希望使用WebUI，可以按照官方说明文档启用python examples/web/webui.py。这里介绍的是如何通过编程方式使用ChatTTS。首先，我们导入必要的库并初始化 ChatTTS 实例，然后加载模型，并使用 ChatTTS 将文本转换为语音，最后保存生成的音频文件。

import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False) # Set to True for better performance
texts = ["你好，我是X二零四六，欢迎关注LLM深潜：Agent框架与应用揭秘"]
wavs = chat.infer(texts)

torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

注意：不要使用官网的教程，API已经落后无法运行了，以github官方repo为准。

但是我的Apple M1使用torchaudio.save会报错，如下所示。

把上述错误拷贝给MarCode进行一番交流，终于解决了运行错误。但在与MarsCode交流中，我觉得MarsCode对于指令的跟随性不太好，我需要的是mp3，结果给出的代码是存储为wav文件。

此外，我觉得还可以改进的地方是上下文，看起来它已经忘记我使用torchaudio报错的，这仅仅只有3轮对话。