基于 MeloTTS.cpp 的轻量级的纯 C++ 文本转语音（TTS）库

培根芝士

已于 2025-04-30 14:12:28 修改

阅读量1.3k

点赞数 14

CC 4.0 BY-SA版权

分类专栏： AI 文章标签：人工智能

于 2025-04-28 14:32:36 首次发布

本文链接：https://blog.youkuaiyun.com/watson2017/article/details/147582925

MeloTTS.cpp 是一个轻量级的纯 C++ 文本转语音（Text-to-Speech，TTS）库，由 MyShell.ai 开发并发布。它基于 MeloTTS 项目，支持多种语言的语音合成，包括英语、中文（混合英语）以及即将支持的日语等。

MeloTTS.cpp 的技术架构主要包含以下三个模型：

BERT 模型：用于文本预处理，采用 bert-base-multilingual-uncased（中文）或 bert-base-uncased（英语）。
TTS 模型：负责将处理后的文本转换为语音。
DeepFilterNet 模型：用于去噪，特别是处理 int8 量化模型生成的背景噪声。

一、下载 OpenVINO™ GenAI C++ 包

Windows 系统：

1. 在命令提示符（cmd）中运行以下命令下载 OpenVINO™ GenAI C++ 包：

curl -O https://storage.openvinotoolkit.org/repositories/openvino_genai/packages/2025.1/windows/openvino_genai_windows_2025.1.0.0_x86_64.zip
tar -xzvf openvino_genai_windows_2025.1.0.0_x86_64.zip