LauraTTS：达摩院开源，对标VALL-E

最新推荐文章于 2025-12-09 16:47:37 发布

原创

最新推荐文章于 2025-12-09 16:47:37 发布 · 1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#语音识别 #人工智能

本文介绍了阿里巴巴达摩院开源的音频处理工具包FunCodec，特别是其在LibriTTS上的预训练模型LauraTTS，具备零样本说话人自适应和高质量语音合成能力。文章详细讲解了模型结构、使用方法以及如何通过ModelScope进行语音合成操作。

部署运行你感兴趣的模型镜像

项目地址：

https://github.com/alibaba-damo-academy/FunCodec

https://modelscope.cn/models/damo/speech_synthesizer-laura-en-libritts-16k-codec_nq2-pytorch/summary

LauraTTS：

https://github.com/alibaba-damo-academy/FunCodec/tree/master/egs/LibriTTS/text2speech_laura

testset	WER	Ins	Del	Sub	Speaker Simi
LibriTTS test-clean	3.01	15	51	200	83.53
VALL-E	16.14	142	148	1137

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

希尔贝壳AISHELL

关注关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

VALL-E：语音合成的新里程

Srlua的博客

12-01

1282

VALL-E 模型提供高性能语音合成，潜力广泛应用

精选资源

VALL-E-X语音克隆带6款模型-整合版-文件大小5.66G.rar

12-26

VALL-E X 可以通过仅使用未曾见过的说话者的 3 秒录音作为声学提示，合成高质量的个性化语音，即使是对于一位母语讲者，也可以在另一种语言中执行。此实现支持三种语言（英语、中文、日语）的零尝试、单语 / 跨语言...

参与评论您还未登录，请先登录后发表或查看评论

【亲测免费】推荐开源项目：FunCodec，重塑音频编码的未来

gitblog_00144的博客

09-04

1000

在声音处理和人工智能领域，一个名为**FunCodec**的新星正冉冉升起。这是一款由阿里巴巴达摩院精心打造的开源工具包，旨在革新神经网络在语音编解码领域的应用。FunCodec不仅为开发者提供了一个基础且可复现的技术平台，更是打开了通往高质量、高效能音频处理的大门。 ## 项目介绍 FunCodec是一个致力于神经语音编解码器的开源框架，它以提升代码质量和用户体验为核心。2023年岁末，随着...

FunCodec：神经语音编码器的基础开源工具包

gitblog_00220的博客

09-04

1117

**FunCodec** 是一个面向研究的音频量化工具箱，专为音频处理中的下游应用设计，如文本转语音（TTS）、音乐生成等。它是由阿里巴巴达摩院开发，并在GitHub上开源。此工具包旨在提供一套可复现且易集成的解决方案，支持先进的神经网络模型训练，例如SoundStream和Encodec。FunCodec不仅重现了最先进的模型，还通过其与FunASR的统一设计，便于扩展到诸如自动语音识别(ASR...

趋势前沿 | 达摩院语音 AI 最新技术大全

云布道师

07-05

1551

作者：陈谦、邓憧、付强、高志付、胡凯、罗浩能、纳跃跃、田彪、王雯、鄢志杰、张仕良、张庆林、郑斯奇（以姓氏首字母排序）过去十年，语音 AI 从实验室走向应用，语音搜索、交互早已融入日常。本文将带你一览达摩院语音 AI 技术创新全景，一起感受能听、会说、懂你的语音 AI。...

探索KAN-TTS：阿里巴巴达摩院的先进文本转语音技术

gitblog_00003的博客

04-26

1355

是由阿里巴巴达摩院推出的一个开源文本转语音（Text-to-Speech, TTS）系统。该项目的目标是为开发者提供一个高质量、易用且可定制化的TTS解决方案，帮助他们将文字转换成自然流畅的人声。 ## 技术分析 KAN-TTS采用了先进的神经网络模型架构，其中包括关键的技术亮点： 1. **多尺度Transformer**: KAN-TTS采用了改进版的Transformer模型，该模型能...

探秘KAN-TTS：阿里达摩院的下一代文本转语音神器

gitblog_00026的博客

04-20

909

是阿里巴巴达摩院推出的一个创新性的开源文本转语音（TTS）系统。该项目的目标是构建一个具备知识理解能力、语义丰富度和自然流畅度的高质量语音合成模型，旨在为用户提供更智能、更真实的语音体验。 ## 技术解析 KAN-TTS的核心亮点在于其结合了**知识增强**和**多模态建模**： 1. **知识增强**: KAN-TTS引入了外部知识图谱，通过这种方式，它能够理解和处理具有复杂语义信息的内容...

微软VALL-E零射击TTS模型：VALL-E-X

02-05

微软 VALL-E 零射击TTS（文本到语音）模型的实现。该项目提供了一个强大的自然语言处理工具，可将文本转换为自然流畅的语音。VALL-E X 的性质使其适用于研究、开发和应用，为开发者提供了访问高质量语音合成技术的...

微软VALL-E X零射击TTS模型的开源实现演示可在

02-06

开源实现意味着开发者和研究人员可以自由地访问VALL-E X的源代码，理解其工作原理，并基于此进行定制化开发或进一步的研究。这对于促进语音合成技术的进步，以及提高人工智能在语音交互方面的性能具有重要意义。该...

**探索FunCodec：构建语音编码的未来**

gitblog_00097的博客

06-19

495

探索FunCodec：构建语音编码的未来 FunCodecFunCodec is a research-oriented toolkit for audio quantization and downstream applications, such as text-to-speech synthesis, music generation et.al. 项目地址:https://gitcode...

LAURAGPT：使用 GPT 聆听、注意、理解和重新生成音频

weixin_46433387的博客

01-10

1922

阿里发布的语音大模型，已经开源https://github.com/alibaba-damo-academy/FunCodec/tree/master/egs/LibriTTS/text2speech_laura感兴趣的可以研究一下。

FunCodec 开源项目使用教程

gitblog_00208的博客

09-04

781

FunCodec 项目的目录结构如下： ``` FunCodec/ ├── README.md ├── setup.py ├── funcodec/ │ ├── __init__.py │ ├── models/ │ │ ├── __init__.py │ │ ├── soundstream.py │ │ ├── encodec.py │ ├── utils/...

KAN-TTS开源项目介绍及常见问题解决方案

gitblog_01074的博客

12-13

651

KAN-TTS 是阿里巴巴达摩院推出的中文文本到语音合成(TTS)系统。该项目旨在提供高性能的中文语音合成服务，可用于多种应用场景，如语音助手、有声读物、导航系统等。KAN-TTS 项目使用的主要编程语言包括 Python 和 C++，其中 Python 用于处理上层的算法实现和框架搭建，C++ 用于优化性能和进行底层系统的开发。 ## 2. 新手使用项目时需要注意的3个问题及解决步骤 ###...

funcode实验--黄金矿工(c++实现)

热门推荐

mcp3128

04-20

1万+

C++语言课程设计一黄金矿工一、实验内容玩家通过键盘的按键控制矿工抓取金块，将钩子碰触到的金块抓取过来。要求如下： 1. 单机键盘上的空格键进入游戏，金块的总数是20，大小位置是随机的。 2. 在没有抓取状态下，钩子左右摆动，此时矿工的是静止的。当钩子摆动到一定角度，玩家可以单击键盘上的上下左右键中的下方向键控制矿工伸出长钩，抓取金子，此时矿工是向下摇动转轴。获取到金子往回拉后，矿...

AI核心知识32——大语言模型之Multimodal Voice（简洁且通俗易懂版）

学习AI中...

12-04

455

多模态语音技术实现了AI对声音的原生理解与生成，与传统的拼接式语音助手有本质区别。新一代技术（如GPT-4o）将语音处理整合为端到端流程，直接处理声音波形，带来三大突破：1）能感知语气、情感等副语言信息；2）可自然表达情感并模仿不同音色；3）实现毫秒级响应和实时打断。应用场景包括实时同声传译、情感陪伴和环境感知，使AI真正具备类人的听觉与口语交流能力，标志着从文字处理机器向智能生命体的进化。

AI音色克隆

weixin_61006262的博客

12-05

1134

技术价值降低内容创作门槛提供个性化体验帮助有需要的人群伦理考量声音版权保护防止滥用（如诈骗）隐私保护作为技术爱好者，我们既要拥抱技术的进步，也要关注技术的合理应用。毕竟，技术的最终目的是让生活变得更美好。音色克隆技术的发展让我们看到了 AI 理解和模仿人类声音的巨大潜力。从最初需要大量数据训练，到现在只需几秒音频就能实现高质量克隆，技术的进步令人惊叹。如果你对这个领域感兴趣，不妨从一些开源项目开始尝试。也许在不久的将来，你也能开发出属于自己的音色克隆应用。

用深度学习实现语音识别系统

shayudiandian的博客

12-03

590

语言模型概率加权公式： [ \log P_{\text{total}}(y|x) = \log P_{\text{AM}}(y|x) + \lambda \log P_{\text{LM}}(y) + \gamma |y| ] 其中λ控制语言模型权重，γ调节输出长度惩罚。评估指标使用词错误率(WER)： [ \text{WER} = \frac{S + D + I}{N} \times 100% ] S为替换错误数，D为删除错误数，I为插入错误数，N为参考文本总词数。标准化操作需对特征进行均值方差归一化。

深度学习下载包时可能会遇到的问题及解决方案