肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文

以下是「 豆包MarsCode 体验官」优秀文章,作者X2046。

我们都知道外网上有很多优秀的视频教程平台,比如 Coursera 和 deeplearning.ai。尤其是后者,由吴恩达老师与OpenAI、Langchain、LlamaIndex、AutoGen等公司和作者合作,推出了一系列广受好评的LLM教程,如Prompt Engineering、Langchain教程、LlamaIndex教程和AutoGen教程。deeplearning.ai 的课程紧跟时下热点,是大语言模型爱好者和从业者不可或缺的资源。然而,deepleaning.ai 的课程通常没有中文字幕,这无疑提高了学习的门槛。即使有些同学坚持学习,也可能因为语言障碍只能学到皮毛。我肝了4天,我成功地将这些课程转换成流畅自然的普通话。话不多说,让我们直接看看下面的效果视频。

https://www.ixigua.com/7386982418232574464?utm_source=iframe_share

下面我将详细介绍实现的过程。本文以 deeplearning.ai 上的 ChatGPT Prompt Engineering for Developers 课程为例,通过下载视频和字幕、使用LLama3和反思策略翻译字幕、然后使用 ChatTTS 将字幕转换为流畅的普通话,最终通过 FFmpeg 将字幕、音频和视频合并在一起。你或许会有疑问为什么我的TTS说话如此流畅,音色如此统一?且听我娓娓道来。如何下载视频和字幕文件不在本文讨论范围,本文仅作为教育用途。

注:本文中有很多关于字幕处理和音视频处理的库都是与MarsCode交互得知,我本人对字幕和音视频处理并不是很了解~,如果其中对于音视频处理有疑问的地方,还望指出,感谢~

1. ChatTTS

ChatTTS最近开源后引起了广泛关注,相信大家已经有所耳闻。我在周末简单学习了一下,发现其使用非常简单。你可以先去官网chattts体验一下生成的语音,非常自然和流畅,可以说非常丝滑自然了。

image-20240629164936897

按照官方ChatTTS安装,注意你可能需要使用conda或者venv提前建立虚拟环境,此处按下不表。

pip install git+https://github.com/2noise/ChatTTS

如果希望使用WebUI,可以按照官方说明文档启用python examples/web/webui.py。这里介绍的是如何通过编程方式使用ChatTTS。首先,我们导入必要的库并初始化 ChatTTS 实例,然后加载模型,并使用 ChatTTS 将文本转换为语音,最后保存生成的音频文件。

import ChatTTS
import torch
import torchaudio

chat = ChatTTS.Chat()
chat.load(compile=False) # Set to True for better performance
texts = ["你好,我是X二零四六,欢迎关注LLM深潜:Agent框架与应用揭秘"]
wavs = chat.infer(texts)

torchaudio.save("output1.wav", torch.from_numpy(wavs[0]), 24000)

注意:不要使用官网的教程,API已经落后无法运行了,以github官方repo为准。

但是我的Apple M1使用torchaudio.save会报错,如下所示。

image-20240629165843271

把上述错误拷贝给MarCode进行一番交流,终于解决了运行错误。但在与MarsCode交流中,我觉得MarsCode对于指令的跟随性不太好,我需要的是mp3,结果给出的代码是存储为wav文件。

image-20240702110041576

此外,我觉得还可以改进的地方是上下文,看起来它已经忘记我使用torchaudio报错的,这仅仅只有3轮对话。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值