语音合成TTS | AI产品经理需要了解的AI技术概念

本文介绍了TTS(Text-To-Speech)技术的核心概念,包括TTS与ASR的区别、拼接法与参数法的优缺点、评判标准等。还探讨了TTS的技术边界,如通用TTS和个性化TTS的应用场景。此外,文章分析了TTS的瓶颈和机会,如基础技术的挑战、数据缺乏、人才匮乏、产品化难度和商业化压力。最后,提到了相关资源和产品,为AI产品经理提供入门和实践的指导。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

640?wx_fmt=jpeg


TTS(Text-To-Speech,语音合成),目前是一个“小而美”的AI领域,但我个人觉得非常有意思,感觉TTS在未来会被行业真正重视起来,并且会出现做得不错的创业公司。


本文,是我收集了很多线上/线下的相关信息后,提炼出的AI产品经理“最必要”了解的TTS技术知识和行业现状多了没必要,少了又不足以入门、准备面试或工作实战);不仅帮大家节省了时间,更是过滤了很多无用信息和过于技术的内容。


目录

一、核心概念

二、当前技术边界

三、瓶颈和机会(重点


1


核心概念

1、TTS和ASR的概念区别

我们比较熟悉的ASR技术(Automatic Speech Recognition,语音识别),是将声音转化为文字,可类比于人类的耳朵。


TTS技术(Text-To-Speech,语音合成),是将文字转化为声音(朗读出来),类比于人类的嘴巴。大家在Siri等各种语音助手中听到的声音,都是由TTS来生成的,并不是真人在说话。


TTS的技术实现方法,主要有2种:“拼接法”和“参数法”——


2、拼接法

1)定义:从事先录制的大量语音中,选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等;为了追求合成语音的连贯性,也常常用使用双音子(从一个音素的中央到下一个音素的中央)作为单位。


2)优点:语音质量较高


3)缺点:数据库要求太大。一般需要几十个小时的成品预料。企业级商用的话,需要至少5万句,费用成本在几百万元


3、参数法

1)定义:根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等),然后把这些参数转化为波形。主要分为3个模块:前端后端声码器

  • 前端做的事情,是把文本进行解析,决定每个字的发音是什么,这句话用什么样的语气语调,用什么样的节奏来读,哪些地方是需要强调的重点等等。常见的语气相关的数据描述包含但不限于下面这些:韵律边界,重音,边界调,甚至情感。 还有更多的信息甚至是难以客观描述的,目前的算法只能暂且忽略。

  • 注:拼接法和参数法,都有前端模块,拼接和参数的区别主要是后端声学建模方法的区别。


2)优点:数据库要求相对较小一些。

  • 如果只需要出声(做demo),大概500句就可以,但是效果肯定不行。

  • 通用TTS,一般至少需要5000句,6个小时(一般录制800句话,需要1个小时)。——从前期的准备、找人、找录音场地、录制、数据筛选、标注,最终成为“可以用的数据”,可能至少需要3个月。(讯飞在各方面比较成熟,用时会短很多)

  • 个性化TTS,大多数是用“参数”方法的。(adobe、微软也有尝试过拼接法,不过相对参数方法来说不是太成熟,效果也并不是太通用)


3)缺点:质量比拼接法差一些。因为受制于发声算法,有损失。

  • 因为主要弱点和难点就是声码器。声码器的作用是复现声音信号,难在重现声音细节,并且让人听不出各种杂音、沉闷、机械感等等。目前常见的声码器都是对声音信号本身作各种理论模型以及简化假设,可以说对细节的描述近似于忽略。

  • 注:DeepMind的WaveNet,基本解决了声码器的问题。因为他们直接对语音样本进行预测,不依赖任何发音理论模型。最后出来的音质细节十分丰富,基本达到了与原始语音类似的音质水准(所谓质量提高了50%,就是这里),而且几乎可以对任意声音建模(这就太牛了)。


4、TTS的评判标准

1)主观测试(自然度),以MOS为主

A)MOS(Mean Opinion Scores),专家级评测(主观);1-5分,5分最好。

  • 注:微软小冰公开宣传是4.3分,但有业内朋友认为,也不能据此就说其“绝对”比科大讯飞好,因为每次评审的专家人选都不一样。说白了,目前整个AI行业内,还是各家说自己好的节奏。

B)ABX,普通用户评测(主观)。让用户来试听两个TTS系统,进行对比,看哪个好。

C)每次主观测评应该有区分。比如这次着重听多音字,下次主要听语气词等。


2)客观测试

A)对合成系统产生的声学参数进行评估,一般是计算欧式距离等(RMSE,LSD)。

B)对合成系统工程上的测试:实时率(合成耗时/语音时长)、首包响应时间(用户发出请求到用户感知到的第一包到达时间)、内存占用、CPU占用、3*24小时crash率等。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值