大家知道什么是ChatTTS吗?
在了解是什么是ChatTTS之前,我们需要先了解什么是TTS的全称是Text To Speech也就是文本转语音模型,TT就是是将输入的文本信息转换为语音信号。一般来说,它首先会对输入文本进行分析,包括词法分析、语法分析等,以理解文本的内容和结构。例如,它需要确定句子的停顿位置、语调的升降等信息。然后,通过声学模型将这些语言特征转换为声学特征,如基频、音长、音强等,最后通过声码器将声学特征转换为语音波形。
ChatTTS(Chat Text-to-Speech)就是一种基于TTS模型所新开发的一种新的技术,它允许计算机程序将文本转换成口语,即语音输出。这种技术广泛应用于各种场景,比如语音助手、电子书阅读器、自动电话系统、辅助技术等。用户输入文本,ChatTTS系统会将这些文本转换成语音,然后通过扬声器播放出来,或者通过音频文件保存。这种转换通常涉及到语音合成技术,包括自然语言处理和语音合成引擎,使得生成的语音听起来尽可能自然和流畅。
ChatTTS 是一款为对话场景设计的语音合成模型。它不仅支持多语言(中文和英文),还能预测和控制细粒度的韵律特征,包括笑声、停顿和插话等。使用这款工具,你可以实现自然流畅的语音合成,特别适合需要对话的任务。或是让自媒体的博主减少工作的难度,以往需要制作一个视频需要花费很长的时间用来配音,而有了chatTTS以后这些工作就会变得简单方便了很多,只需要把视频的文案输入完毕,然后稍等一段时间,一段完成度极高的音频文件就会制造完成。
以下是简单的流程演示,观前提醒:本演示内容是建立在使用算网云平台(www.aicpn.cn)提供的ChatTTS镜像的基础上,不确定使用别的软件效果是否会有差异,望见谅。
首先,我们要进入算网云的工作后台界面,这里就像是整个操作的核心,控制着GPU调动的核心。在此,我们需要进行一系列关键操作。在众多选项中,准确选择 GPU 这一步至关重要,因为GPU的性能直接关系懂应用的运营速度。选好 GPU 后,我们就可以部署所需的镜像了,接着便是耐心等待容器实例的部署。这是一个需要些时间的过程,大家要保持耐心。当看到部署状态显示为 进行中”时,就意味着平台的镜像已经部署完毕了,此时可以点击Webui就可以进入镜像。
进入镜像后可以看到整体的布局是非常简单明了的,便于新手的学习与操作。
首先在这个音色选择界面中,可以选择要生成的声音的基础音色,目前可供选择的基础音色有10种,用户可以在这个音色的基础上通过下方的调整选项,搭配出自己想要的声音来进行创作。
接下来,在输入文本的选框中输入自己准备好的文本,要注意的点是一次输入的文本信息不要太多,过多的文本信息不仅会拖慢语音的转换速度,也有一定概率使生成出来的音频变成噪音,完全听不出来讲的是什么。
然后是整个应用的比较重要的几个参数了,新人用户更推荐直接使用默认配置。
Temperature
含义: 控制输出的随机性。数值越高,生成的语音越可能包含意外变化;数值较低则趋向于更平稳的输出。
Top_P
核采样策略,定义概率累积值,模型将只从这个累积概率覆盖的最可能的词中选择下一个词。
Top_K
限制模型考虑的可能词汇数量,设置为一个具体数值,模型将只从这最可能的 K 个词中选择下一个词。不能选择为0,要不然应用会报错。
还有需要提醒一点的是这个文本调整最好还是不用选择跳过,虽然跳过后确实可以有效减少生成音频所需要的时间,因为ai不需要换气,并且对于句子的断句跟人类相比都不太一样,所以导致音频会变得比较奇怪。
将以上设置调整完毕后就可以直接点击生成声音来形成音频文件了,根据输入的文本量,需要等待的时间不一,按照自己的测试生成下面测试文本的音频文件,大致需要2分钟的时间。
等到生成结束后,就可以获得一个可下载的MP3格式的音频文件,整体下来与自己费尽心思录音相比,ChatTTS可以极大程度的减少这一过程所需要花费的时间。
以上就是关于ChatTTS软件的基本介绍了,虽然该软件还有不足数据依赖性强,生成效果严重依赖于训练数据的质量和多样性,在某些特定应用场景下,可能需要大量的特定数据进行微调。实时性不足,由于生成过程的复杂性,在某些实时应用中可能存在延迟,特别是在处理复杂文本和生成长段语音时。但瑕不掩瑜,可以说这个软件开创了一种全新的工作模式,相信不久的将来,看到更多的新鲜事物的诞生。