TTS是Text-to-Speech的缩写,即“从文本到语音”的技术。它涉及将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语(或其他语言语音)输出的过程,属于语音合成(Speech Synthesis)领域。语音合成技术通过模拟人的嘴唇、舌头和发声器官,或者通过其他技术手段,将文本信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。这项技术涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术。
语音合成技术主要分为两个阶段:文本分析和语音合成。文本分析阶段与自然语言处理(NLP)步骤相似,包括句子分割、单词分割、词性标注等,其输出是grapheme-to-phoneme(G2P),作为语音合成阶段的输入。在语音合成阶段,系统将G2P转换为音频波形。现代语音合成系统更关注提供个性化和情感化的语音输出,以提升人机交互体验。