语音合成在用户界面中的应用探索
1. 语音合成技术现状
如今,先进的用户界面多为多模态,能有效利用文本、图形和音频等多媒体内容。很多人认为,人们很快就能像面对面交流一样自然轻松地与机器对话,因为他们觉得自然语言理解和语音识别等技术问题已接近解决。然而,尽管自然语言理解和语音识别取得了显著进展,但都不如语音合成技术成熟。目前,使用有限词汇和简单语法,通过键入输入和语音输出进行交互是可行的。虽然语音识别在界面中的应用越来越普遍,但可用性结果差异很大,受说话者、训练、词汇、环境影响和对话复杂性等因素影响。不过,从无限制文本生成可接受、易懂的语音已成为现实,但仍有改进空间。
2. 语音通道的特性
2.1 多模态处理
人们可以同时通过多种模态处理信息,例如开车时听广播或使用免提手机通话。在设计良好的应用中,两种或多种模态可以相互补充。语音输出具有侵入性,信息更易被关注,而书面指令则容易被忽略。
2.2 多模态界面
在某些情况下,多模态交互界面比单一模态更具优势。例如在汽车环境中与地图显示交互时,由于环境嘈杂,语音识别性能会受到影响,而且人们在表达空间信息时容易出现错误或不流畅。因此,当语音输入受到噪声干扰、难以准确表达或变化多样时,设计具有多种输入模式(如手写、直接操作、手势等)的界面是有必要的。
2.3 友好性和通用性
语音是人类最古老的交流方式之一,人类已经进化到能够高效处理语音信息。使用语音的良好界面会让人感觉更自然,因为语音比文本更能传达情感和语气。但也有语音应用不当的情况,如 20 世纪 80 年代的会说话的汽车,司机很快就觉得语音烦人,转而要求简单的听觉警告。
2.4 对残障用户的最佳模态
语音是视障人士的主要交流方式,对于聋哑和言语障碍者,语音技术也提供了强大的交流渠道。
2.5 书面语言比口语理解更快
一般来说,口语的语速约为每分钟 120 - 150 个单词,而阅读速度约为每分钟 200 - 300 个单词,甚至可以以每分钟 1000 个单词的速度浏览文本。虽然人们可以理解高于平均语速的语音,但需要高度集中注意力和动力,而且这种任务不适合长时间进行。不过,高速压缩语音可用于扫描文本以查找感兴趣的主题,尤其是对于有经验的听众。
2.6 语音的短暂性
语音具有短暂性,不易扫描或重播,而且信号在空气中传播时容易受到环境噪声的影响和干扰。在车辆或战场等环境中,语音虽然可能非常有效,但也面临很大挑战。不过,对免提通信的需求增加,推动了这些恶劣环境下噪声抑制和语音增强技术的研究。
3. 语音的应用领域
3.1 信息访问
信息访问是语音应用中最大的类别,以下是一些具体示例:
-
新闻服务
:法国新闻社通过电话网络提供新闻服务,用户说出约 40 个预设关键词之一,系统识别后通过语音合成提供标题和摘要列表,用户还可选择通过传真获取完整文本。
-
反向目录服务
:在正常的目录查询中,用户提供姓名获取电话号码;而反向目录服务则相反,用户提供号码获取相关姓名和地址。在美国的两个地区,该服务使用 ORATOR 系统合成客户姓名和地址,虽然完全准确的发音难以实现,但已达到可接受的准确率,并且在多个地区广泛使用。
-
铁路时刻表查询
:用户的目标是获取特定火车的时间和地点信息,但实现这一目标所需的对话结构相当复杂。法国铁路公司(SCNF)每年处理约 4000 万个电话咨询,用户可以通过按键或语音识别输入信息,系统使用语音合成和预录制语音的组合提供车站名称和时间信息。该服务存在发音问题、按键界面繁琐和语音识别错误等问题。
-
语音访问电子邮件
:“SpeechActs”等研究原型允许用户通过电话以“对话式”界面访问电子邮件、日历和其他实用程序,使用合成语音呈现信息。该应用的主要挑战是实现可用的对话界面和处理语音识别产生的大量错误。
3.2 客户订购
- 目录销售 :法国最大的目录零售商 CAMIF 自 1992 年起运行 IVR 订购系统,用户通过按键输入信息,系统使用语音合成确认客户姓名、地址和产品信息。虽然客户姓氏和地名的发音错误率为 7%,但由于这些是熟悉的个人信息,且反馈仅用于验证,客户可以容忍这些错误。
- 法国电信销售代理 :法国电信为客户提供了一种在下班后使用语音识别前端订购产品和服务的服务,自 1991 年起在两个办公室使用,取得了积极的效果。
3.3 驾驶员信息服务
语音界面在汽车领域具有巨大的潜力,驾驶员在驾驶过程中可以通过听觉通道接收信息,并且更倾向于使用语音进行响应。然而,车辆本身和道路噪声带来的挑战使得除了有限的语音识别之外,其他应用都很困难。
-
旅行者的梦想 - 完美的副驾驶
:Davis 的 Backseat Driver 原型为波士顿的驾驶员提供语音导航,驾驶员可以通过键盘或电话键盘输入目的地。汽车配备了高端工作站、地图数据库和语音合成器,系统根据车辆的位置、速度和方向提供及时的导航指示。虽然该原型未经过正式的可用性测试,但激发了人们对这类服务的兴趣和想象。
-
近期的驾驶员信息系统
:目前,一些试点系统已经开始为驾驶员提供交通信息,使用语音识别作为输入,语音合成作为输出。例如,柏林的一个系统通过电子路标为驾驶员提供口头指示,但有时驾驶员会被过于简洁和权威的语音指示吓到。此外,赫兹公司为租赁汽车配备了“Never Lost”系统,该系统结合了全球定位卫星、惯性导航、地图数据库、车载显示和语音导航指示,功能与 Backseat Driver 相似。
3.4 残障人士界面
语音合成技术为残障人士提供了两种主要的应用:为言语障碍者提供人工嘴巴,为视障者提供人工眼睛。
-
言语障碍者
:对于无法清晰说话的人,合成器使他们能够与他人交流。例如,著名宇宙学家斯蒂芬·霍金在患肌萎缩侧索硬化症(ALS)后,多年来一直使用合成器进行演讲。然而,这种技术的主要问题是输入困难,没有人能够快速打字以保持自然的对话节奏。预测打字、语义压缩和动态显示等技术可以减少打字的按键次数,但许多用户存在多种残疾,无法使用打字。目前,一些原始的字母板已被头部指针、眼动追踪等传感器驱动的设备所取代,几乎任何受稳定自主控制的肌肉都可以用于为合成器生成或选择文本。此外,合成器的声音很少能与用户想要传达的声音模型相匹配,听众对合成语音的理解也是一个问题,尤其是对于较便宜的系统。
-
视障者
:语音合成器可以为视障者阅读书籍和计算机文本。许多主要图书馆都配备了光学字符识别(OCR)系统和语音合成器,读者可以将书籍放在阅读器上听取页面内容。许多商业产品也为个人计算机用户提供屏幕阅读功能。然而,视障者在扫描大段文本时,通过提高语速往往效果不佳,而且在选择要朗读的文本时也存在问题。此外,文本的视觉方面(如缩进、列、表格)在音频模式下难以传达,而这些对于解析信息往往至关重要。现代窗口和图形界面的发展使得通过计算机界面进行听觉导航变得尤为困难。
4. 语音识别准确率统计
以下是两个信息服务的现场评估数据:
|服务|词汇量|检测到的话语数量|正确识别率|错误识别率|替换错误率|误拒率|误准确率|全局错误率|主要错误率|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|Les Baladins|26 个单词|30,000|78.5%|21.5%|0.9%|8.2%|2.3%|11.4%|3.2%|
|Sales Agency|6 个单词|20,500|34%|66%|0.1%|5.8%|0.6%|6.5%|0.7%|
这些数据表明,对于公众使用的小词汇量(少于 30 个单词)的说话人独立识别,我们仍处于成功应用的边缘。目前,说话人相关识别对于大词汇量的应用效果较好,但当有其他输入机制可用时,人们通常更倾向于使用它们。
5. 语音输出技术选择
根据语音的统计特征,使用语音输出的应用大致可分为以下三种类型:
5.1 少量可预测的单词、短语或句子
对于这类应用,通常使用编码的预录制单词和短语技术。虽然从技术上讲,这不属于“语音合成”(通常指合成语音或全文本到语音合成),但有时也被称为语音合成。由于成本较低(廉价的磁盘空间和几乎不占用 CPU 资源),可以获得非常高质量的语音输出。因此,当应用可以设计为使用有限的、可预测的单词或短语时,预录制语音通常是首选。
5.2 少量载体短语,其中包含一组通常可预测的可变项
这类应用介于少量单词和无限制词汇之间。例如,在银行和电信应用中,会使用载体短语并插入可变文本。插入的语音可以是预录制的单词(通常是数字)、从呼叫者那里捕获的语音或合成语音。为了实现载体短语和插入词汇项之间的无缝过渡,需要注意调整音高、强度和语调。当合成语音系统的说话人可用于录制应用的载体短语时,可以开发出高质量的混合系统。
5.3 无限制文本
这类应用需要全文本到语音系统,因为消息在事先无法预测,没有说话人可以预先录制这些短语。此外,当潜在短语数量过多无法预录制时,或者基于快速变化的文本数据库(如新闻、广告或电话目录)时,也必须使用文本到语音合成技术。大多数潜在应用都需要文本到语音技术,但目前的主要障碍是技术(语音质量尚未达到公众可接受的自然度水平)或数据库(信息格式不适合合成)。随着语音技术的不断改进和处理大型数据库的技术的发展,我们将看到文本到语音技术的更广泛应用。
6. 语音合成应用的障碍及解决方案
6.1 发音准确性
6.1.1 名称和其他专业词汇
许多语音合成应用需要正确发音专业词汇,如人名、地名、企业名等。在提供股票信息和反向电话目录服务等应用中,正确发音人名尤为重要。在提供驾驶方向或交通信息的应用中,准确发音地理数据(城镇和街道)也至关重要。目前,一些系统在名称发音准确性方面仍存在问题,但可以通过使用大型名称发音字典或开发名称发音规则来提高准确性。
6.1.2 混合文本:名称和单词
在许多服务中,文本包含名称和英语文本的混合,如报纸故事、电子邮件和电话商业列表。由于缺乏可靠的语法或词汇线索来识别专有名词,发音这些文本具有挑战性。目前,最好的系统采用统一的方法来发音名称和一般文本,但在缺乏这些能力的情况下,可能需要使用预处理器来确保高准确性。
6.1.3 首字母缩写词
首字母缩写词对于自动化服务来说是一个难题,主要原因有两个:一是发音风格难以预测,有些缩写词发音像一个单词,有些则逐个字母拼写,还有些是两者的组合;二是在全大写数据库中检测缩写词非常困难。目前,一些高端合成器可以准确处理缩写词的发音,但检测缩写词仍然是一个挑战,需要使用数据库搜索、统计方法和训练系统等技术。
6.1.4 缩写词
准确检测和翻译文本中的缩写词是语音合成的一个普遍问题。所有高端合成器都具备翻译一些缩写词的功能,但由于缩写词的多样性和上下文依赖性,没有一个合成器能够处理所有的缩写词。在许多情况下,需要考虑上下文、特定领域或语义消歧和语用推理来确定缩写词的正确翻译。
6.2 输入文本的准备
大多数数据库中的信息并非为语音合成而存储,通常是为了视觉显示或程序查询。这些信息包含不一致的缩写、截断、视觉指示的层次结构和关系、不一致的字段分隔以及混乱的单词顺序等问题,如果不进行纠正,直接合成这些信息将难以理解。以下是一些常见的问题及解决方案:
6.2.1 字符长度限制
字段长度限制常常严重限制文本,截断的文本和特殊缩写会让人困惑。解决方案可以是使用预处理器来扩展缩写、识别字段和重新排序单词。
6.2.2 模糊或不一致的缩写
由于缩写便于数据输入,数据库中常常存在不一致或随意的缩写,导致缩写含义模糊。可以通过制定规则或使用统计技术来确定缩写的正确翻译。
6.2.3 数据库转换中丢失的字段信息
一个数据库通常是另一个数据库的派生,在转换过程中可能会丢失重要的信息,如分隔符或字段标识,这会导致在预处理阶段难以解决歧义。可以通过手动调整或使用自动实时技术来恢复丢失的信息。
6.2.4 “混乱”的单词顺序
文本可能按照现有服务的快速检索顺序存储,单词顺序可能不适合合成。可以使用预处理器对单词进行重新排序。
6.2.5 不一致的信息顺序
文本输入规则不严格遵守可能导致信息顺序不一致,例如邮政编码可能出现在地区字段中,而不是在自己的字段中。可以通过分析输入来识别和纠正这些问题。
6.2.6 无关信息
文本中常常包含无关信息,如地址字段中的“下午 5 点后致电”、“仅限按键电话”等。在某些情况下,由于这些信息与所需信息在其他上下文中相似,预处理器难以轻松删除。可以使用过滤器来识别和删除无关信息。
6.2.7 未标记的字段
一些数据库缺乏对条目的部分标识,如股票代码和名称、姓名和地址等,这会在调整语调和平滑处理时产生问题。可以通过分析上下文或使用字典来识别这些字段。
6.2.8 视觉编码信息
文本的格式通常隐含在其视觉布局中,如商业演示、传真和电子邮件的某些方面。在转换为纯字符时,这些方面很难恢复。可以通过分析文本的结构和上下文来尝试恢复这些信息。
6.2.9 潜在解决方案
解决这些障碍通常有两种方法:一是永久更改数据库以减少合成问题,或者切换到更适合的数据库;二是使用定制的预处理器将“脏”数据库实时转换为适合语音服务的格式。自动预处理器对于大型动态数据库可能需要大量的开发时间,但可以接近 100% 的准确性。对于频繁更新且没有数据输入监控的大型数据库,可能无法实现 100% 的准确恢复,因为每天都会出现新的临时缩写。
以下是一个流行合成服务的信息流程图:
graph LR
A[目录检索] --> B[缩写扩展]
B --> C[首字母缩写词识别]
C --> D[无关单词过滤]
D --> E[单词和字段重新排序]
E --> F[待拼写单词识别]
F --> G[混合大小写文本解析]
G --> H[短语划分]
H --> I[合成器语调控制]
I --> J[本地定制字典]
J --> K[ORATOR 语音合成器]
7. 无限制文本到语音合成技术
7.1 技术概述
将文本转换为语音通常包括两个主要阶段:
1.
将输入文本转换为语音表示
:首先,文本需要将所有数字、符号和缩写转换为单词。然后,每个单词会在发音字典和字母到声音(或字母到音素)发音规则中进行检查。由于大多数语言的发音规则不能涵盖所有单词的发音,因此需要综合使用字典和规则来获得每个单词的语音表示。
2.
从语音表示产生声音
:第二阶段根据第一阶段获得的发音产生语音。合成器使用各种技术来指定语音的特定参数(如持续时间、音高、整体幅度、频谱等),并为每个语音段生成声音。所有合成器都包含规则来创建或选择每个短语和句子的基本频率(大致为音高)轮廓,以及影响元音和辅音持续时间的规则。这些参数主要表达每个句子的语调。
7.2 声音库存的特点
不同合成器在第二阶段产生语音声音的方式存在很大差异,这可以通过合成器的声音库存的特点来描述:
-
编码方式
:一些合成器(如 DECTalk)的声音库存由单个音素的模型组成,规则调整音素模型的参数;所谓的拼接式合成器(如 Orator 和 FlexTalk)的声音库存由特定人类说话者的录音获得的频谱参数组成;还有一类合成器基于特定人类的录音,直接在原始波形上调整音高和持续时间,使用称为 PSOLA(音高同步重叠相加)的技术。
-
单位长度和数量
:最小的合成器使用基于音素的声音库存,这种方式存储经济。较大的合成器基于更长的声音单位(如双音素、半音节)和不同长度的单位。未来,基于音节或单词的商业系统可能会出现。基于较长单位的合成器旨在实现更高的自然度和可懂度,因为它们的单位自然地体现了音素之间的复杂语音交互,而基于音素的系统需要通过规则来模拟这些交互。早期的合成器完全基于音素,随着存储和 CPU 能力的增加,基于较长单位的系统将成为主流。
7.3 文本转换为语音拼写的方法
7.3.1 文本规范化
将所有非单词输入转换为单词,包括数字、符号和缩写。一些符号和缩写可以通过简单的查找表进行处理,但许多情况需要考虑上下文和世界知识。例如,“1 ft”应转换为“foot”,而“2 ft”应转换为“feet”,但合成器可能无法正确处理“one ft”和“two thousand ft”。此外,缩写的文本表示形式各不相同,需要系统具有定制化的规则来适应不同的说话习惯。
7.3.2 字母到声音规则
大多数系统的核心模块是字母到声音规则,用于确定单词的发音。每个输入单词首先在异常字典中进行检查,如果不在字典中,则根据语言的发音规则生成发音。不同语言的发音规则数量不同,例如西班牙语的发音规则简单,而英语的发音规则复杂,并且许多英语单词的发音具有例外情况。系统的目标复杂度和范围也会影响规则的数量,例如设计用于同时发音名称和单词的系统(如 Orator)通常包含更多和更复杂的规则。
7.3.3 使用发音字典
对于一些无法通过规则预测发音的单词,如“two”,需要使用发音字典。英语中有许多单词的发音不规律,因此字典在发音中起着重要作用。一些系统更依赖发音字典,随着计算机内存成本的降低,大字典系统将变得更加实用。所有主要系统都包含用户可定制的字典,以满足不同地区和个人的发音偏好。此外,字典还提供了重要的语调信息,如词性识别,这有助于确定句子的短语划分和单词的发音。然而,发音规则在处理排版错误时更具优势,并且在模拟不同方言时更容易修改。
7.3.4 形态字典
形态字典用于分析单词的组成部分,如词根、前缀和后缀,有助于简化发音过程。例如,“clearinghouses”可以分析为“clear + ing + house + s”,避免了一些可笑的发音。形态字典还可以帮助处理一些包含特定形态的单词,如“cupholder”和“stakeholder”,确保正确的发音。
7.4 正确发音专有名称的挑战
正确发音专有名称是文本到语音合成的一个难题,目前仍然是一个活跃的研究领域。名称的发音具有挑战性,主要原因有两个:
-
名称数量众多
:美国有超过 150 万个独特拼写的姓氏和数十万个名字,此外还有超过 200 万个商标产品名称和大量的企业名称,并且每天都有新的名称产生。虽然存储成本不断降低,但使用姓氏字典数据库实现全面覆盖和高准确性几乎是不可能的。一个小字典可以覆盖一定比例的人口,但对于罕见姓氏,需要使用规则系统来提高准确性。
-
名称的民族起源多样
:许多在北美常见的名称源于不同的语言,“标准”的名称发音规则可能不适用。一些系统使用技术来确定名称的可能词源,并选择相应语言的字母到声音规则,但北美名称的发音并不严格遵循其原始语言的规则。目前,一些先进的发音系统可以达到与人类相当的发音水平,并且不断改进。然而,专有名称的发音存在许多替代发音,这给应用开发者带来了挑战。除非应用允许引用多个替代发音或进行个性化定制,否则用户可能会听到名称的合理错误发音。
以下是美国一些大城市中出现频率最高的 25 个姓氏排名:
|排名|波士顿|曼哈顿|费城|俄亥俄州哥伦布市|什里夫波特|芝加哥|西雅图|
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
|1|SMITH|SMITH|SMITH|SMITH|SMITH|JOHNSON|JOHNSON|
|2|SULLIVAN|RODRIGUEZ|WILLIAMS|MILLER|JOHNSON|SMITH|SMITH|
|3|MURPHY|BROWN|JOHNSON|JOHNSON|WILLIAMS|WILLIAMS|ANDERSON|
|4|JOHNSON|WILLIAMS|BROWN|BROWN|JONES|BROWN|MILLER|
|5|BROWN|LEE|JONES|WILLIAMS|BROUSSARD|JONES|BROWN|
|6|WILLIAMS|JOHNSON|MILLER|JONES|BROWN|MILLER|WILLIAMS|
|7|WHITE|COHEN|DAVIS|DAVIS|FONTENOT|ANDERSON|JONES|
|8|O’BRIEN|MILLER|ROBINSON|MOORE|DAVIS|DAVIS|NELSON|
|9|WALSH|JONES|JACKSON|WILSON|HEBERT|JACKSON|DAVIS|
|10|MCCARTHY|DAVIS|THOMAS|THOMPSON|MILLER|THOMAS|WILSON|
|11|MILLER|RIVERA|WILSON|TAYLOR|THOMAS|HARRIS|LEE|
|12|JONES|PEREZ|HARRIS|THOMAS|JACKSON|WILSON|PETERSON|
|13|DAVIS|GONZALEZ|COHEN|MARTIN|GUIDRY|TAYLOR|THOMPSON|
|14|KELLY|GARCIA|WHITE|CLARK|TAYLOR|MOORE|TAYLOR|
|15|ANDERSON|SCHWARTZ|TAYLOR|WHITE|MOORE|WHITE|MARTIN|
|16|LEE|MARTINEZ|MOORE|ANDERSON|RICHARD|LEE|CLARK|
|17|COHEN|HARRIS|GREEN|HARRIS|MARTIN|MARTIN|OLSON|
|18|MARTIN|LOPEZ|KELLY|BAKER|LANDRY|GARCIA|THOMAS|
|19|BURKE|LEWIS|LEE|HALL|WHITE|RODRIGUEZ|WHITE|
|20|COLLINS|WONG|THOMPSON|JACKSON|LEBLANC|NELSON|MOORE|
|21|WILSON|MARTIN|SCOTT|LEWIS|WILSON|ROBINSON|LEWIS|
|22|RYAN|TORRES|LEWIS|YOUNG|LEWIS|THOMPSON|YOUNG|
|23|MACDONALD|FRIEDMAN|ANDERSON|WRIGHT|WALKER|MARTINEZ|JACKSON|
|24|KING|GREEN|MARTIN|EVANS|GUILLORY|WALKER|HANSEN|
|25|TAYLOR|THOMAS|CLARK|KING|THIBODEAUX|CLARK|HARRIS|
8. 语调处理
通用合成器追求一个宏伟的目标,即让任何人都能理解所发出的任何文本。然而,当前的合成器在韵律规则方面还有很大的提升空间。当自然韵律应用于原本合成的话语时,其自然度会显著提高。合成器试图直接从文本输入中生成韵律,但目前的语义模型远远不能提供所需的最低控制量。
不过,大多数应用领域会限制语义的可变性。这意味着利用特定领域的信息和假设,可以显著改善合成器的韵律,进而提高用户的理解和对自然度的感知。例如,在处理目录条目或股票报价时,不需要使用多种语调模式。
大量的韵律工作集中在反向目录服务中的姓名和地址发音上。这些努力主要包括以下几个方面:
1.
清晰发音
:尽可能清晰地发音姓名。
2.
正确去重音
:正确处理复合词中的重音,例如“auxiliary line”。
3.
处理前缀和后缀
:特别关注不同类别的前缀头衔(如 Mr、Dr)和可重读后缀(如 Inc、Ltd)的发音。
4.
适当停顿和短语划分
:为复杂信息提供适当的停顿和短语划分,以便于转录,同时又不会让仅用于验证信息的用户感到厌烦。
以下是一个简单的示例,展示了如何通过调整语调来提高合成语音的自然度:
graph LR
A[原始文本] --> B[分析语义和上下文]
B --> C[确定语调模式]
C --> D[调整音高、时长和强度]
D --> E[生成自然语调的语音]
8.1 对话中的语调处理
8.1.1 电话中继服务自动化
电话中继服务(或双派对中继服务)的自动化是一项重要的研究成果,它使聋人社区能够与普通人群进行交流。在部分自动化版本的服务中,合成器会朗读听力障碍客户输入的文本,而操作员只需输入非障碍客户所说的内容。
然而,这种服务面临一些技术挑战。由于输入的文本中很少有标点符号(包括句末的句号),并且受到美国手语的语法和句法影响,很难确定短语和句子的边界。为了解决这个问题,开发了一种特殊的解析器,它可以将没有标点的文本流逐句地呈现给听力用户。这种呈现方式比逐字合成或等待输入完成后再合成更成功。
此外,对输入时间的分析也有助于确定何时开始朗读缓冲的文本。打字过程中的停顿通常表示短语或句子的边界,是一个很好的提示。
8.1.2 其他服务中的对话控制
在其他服务中,如获取航班信息或从目录中购买产品,合成对话通常由程序控制。研究的重点通常是引导用户完成交易,确保用户提供系统能够处理的信息和语言。
为了成功引导对话,通常需要改进合成器的默认韵律。调整对话的韵律控制被认为是一项重要的贡献,但韵律的影响有时难以衡量,甚至可能产生矛盾的效果。
8.1.3 预处理器的作用
随着文本到语音合成器的不断改进,预处理器的作用将逐渐减小。早期的语音合成器存在基本的文本规范化问题,如不能正确翻译十进制数字。为了弥补这些不足,应用预处理器需要包含数字发音规则。
目前,先进的合成器已经解决了这些基本问题,但默认情况下产生的语调仍然比较初级,是不同文本领域相互冲突需求的折衷。而预处理器可以利用特定领域的知识,显著提高合成器在服务上下文中的理解度。
8.2 副语言在合成语音中的作用
到目前为止,我们主要关注了语音中承载语言信息的方面。然而,人类语音还能通过音高、语速、响度等变化为听众提供副语言信息,例如说话者的情感状态。
早期的研究表明,人们可以通过声音判断说话者的年龄和一些个性特征。某些声音似乎与特定的个性类型相关,存在着声音刻板印象。例如,较快的语速被认为更有说服力,而犹豫或不流畅的说话者则被认为具有不受欢迎的个性特征,如可信度低。
为了研究语音参数与个性属性之间的关系,研究人员通过重新合成大量说话者的自然语音,分别改变语速(慢、正常、快)和平均基频(低、正常、高)。结果发现,这两个变量会影响人们对说话者个性属性的评价。降低语速会对说话者的说服力、流畅度和紧张感产生负面影响;增加平均音高会降低说服力,并增加紧张和欺骗的印象。
因此,为了选择具有最理想社会特征的声音类型,应该选择音高低于平均水平且语速快于正常水平的声音。
此外,通信上下文也会影响最适合的声音参数的选择。不同的通信上下文(如提供信息、娱乐、反馈)对声音的要求不同。例如,在提供信息的上下文中,听众更喜欢“饱满”、“清晰”的声音;在娱乐上下文中,听众更喜欢中低音调、来自大头的声音;在需要反馈的上下文中,听众更喜欢有一定粗糙度的声音。
9. 合成语音与自然语音的混合
合成语音技术在质量(自然度和可懂度)方面取得了显著进展,但在提高自然度方面仍面临许多挑战。在实际应用中,将合成语音与预录制的提示音混合使用是一种常见的方法,以下是几种不同的混合方式及其效果分析。
9.1 相同说话者的混合
最理想的情况是使用与合成语音相同的说话者来录制提示音、载体短语等。对于基于特定人类说话者录音的拼接式合成器,这种方式是可行的。例如,在一个提供新邮政编码信息的语音识别界面中,通过 PSOLA 技术编码的合成声音单元与用于提示音和载体短语的声音来自同一说话者。在演示系统中,只有部分听众注意到电话线路有“干扰”,说明他们没有明显察觉到存储语音和合成语音之间的过渡。
随着未来从个人存储录音中开发高质量合成器的难度降低,预计会有更多服务采用这种相同说话者的合成语音和预录制语音混合的方式。而且,随着多音素、超长单元和更大存储语音库存的使用,存储语音和合成语音之间的界限将变得模糊。
9.2 不同说话者的混合
在大多数当前应用中,使用相同说话者录制提示音和合成语音是不现实的。因此,常见的混合方式有两种:
1.
使用录制语音作为提示音,合成器用于其他部分
:这种方式可以确保提示音始终使用高质量的语音,可能会获得较高的整体满意度和可懂度评分。
2.
整个服务都使用同一合成器
:随着对合成语音的熟悉,用户对其感知会有所改善。切换语音可能会干扰这种练习效果,而且同一服务中自然语音和合成语音的对比可能会使合成语音听起来更不自然。因此,全程使用合成语音可能会使合成语音获得更高的自然度评分。
以下是两个模拟服务条件的研究结果:
|研究|条件|合成电话列表转录和拼写准确率|
| ---- | ---- | ---- |
|Yuschik 等|合成问候语和载体短语 + 合成列表|高|
|Yuschik 等|自然语音问候语 + 合成载体短语 + 合成列表|中|
|Yuschik 等|自然语音问候语和载体短语 + 合成列表|低|
|Spiegel 和 Winslow|自然语音问候语 + 合成载体短语 + 合成列表|较高|
|Spiegel 和 Winslow|自然语音问候语和载体短语 + 合成列表|较低|
从这些研究结果可以看出,当载体短语为合成语音时,合成电话列表的转录和拼写更准确。在 Spiegel 和 Winslow 的研究中,还进行了主观评分。结果显示,将女性语音与(男性声音)合成语音混合使用明显不受欢迎,在列表发音、拼写清晰度和整体服务评分方面获得最差的评分;而单独使用自然男性语音,没有合成语音过渡到列表,通常获得最高的评分。
9.3 合成语音混合的建议
由于相关研究结果存在矛盾,不能简单地根据语音模式来选择。一般来说,如果合成器的可懂度未达到先进水平,或者消息有些不可预测或包含长指令,不建议全程使用合成语音;如果提示音较短,用户群体包括偶尔使用的客户,且合成器性能一流,则可以考虑全程使用合成语音。
最重要的是,对于特定应用,一定要使用代表性用户样本测试不同的选项。目前,两种方式都有成功的应用案例。
此外,随着能够产生多种合成语音的合成器的出现,还提出了混合合成语音的选项。例如,根据消息的类型或紧急程度使用不同的声音。但在合成语音质量进一步提高之前,这种方法可能更适用于用户对每种声音都非常熟悉,或者消息集和上下文相对可预测的环境。
10. 总结与展望
语音合成技术在用户界面中的应用前景广阔,但也面临着诸多挑战。目前,虽然已经取得了一些显著的成果,如在信息访问、客户订购、驾驶员信息服务和残障人士界面等领域的应用,但仍有许多问题需要解决。
在发音准确性方面,专有名称、首字母缩写词和缩写词的发音仍然是难题,需要不断改进规则和使用更智能的预处理器。输入文本的准备工作也至关重要,需要处理数据库中存在的各种问题,如缩写、字段信息丢失和单词顺序混乱等。
语调处理和副语言的应用可以提高合成语音的自然度和可懂度,但目前的技术还不够成熟。合成语音与自然语音的混合使用需要根据具体应用进行测试和选择,以达到最佳效果。
未来,随着技术的不断进步,语音合成技术有望实现更自然、更智能的交互。例如,可能会出现能够根据用户的情感状态和上下文实时调整语音参数的合成器,以及能够更好地处理各种复杂语言情况的系统。同时,随着存储成本的降低和计算能力的提高,基于更长单位和更大库存的合成技术将得到更广泛的应用。
为了实现这些目标,需要研究人员、开发者和用户共同努力。研究人员需要不断探索新的技术和方法,开发者需要将这些技术应用到实际产品中,而用户的反馈则可以帮助改进产品的性能和用户体验。相信在不久的将来,语音合成技术将在更多领域发挥重要作用,为人们的生活和工作带来更大的便利。
超级会员免费看
818

被折叠的 条评论
为什么被折叠?



