26、语音助手的额外训练与模型评估-优快云博客

本文链接：https://blog.youkuaiyun.com/julia4scientist/article/details/151032942

语音助手的额外训练与模型评估

在语音助手的开发和优化过程中，数据的收集、模型的测试以及训练都是至关重要的环节。下面将详细介绍语音数据的收集方式、语音 - 文本模型的测试方法以及如何训练定制化的语音 - 文本模型。

合成语音数据的生成

传统的通话记录虽然是语音数据的一个来源，但存在一定挑战。因此，我们可以考虑生成合成语音数据。以 Fictitious 公司为例，他们可以按照以下步骤收集合成语音数据：
1. 构建话语脚本 ：将用于训练意图分类器的部分或全部文本话语添加到脚本中，脚本中的每一行都是一个意图或实体的训练示例。
2. 多样化用户朗读 ：让不同的用户朗读脚本，为脚本中的每一行创建一个音频文件。
3. 存储音频数据 ：将音频数据与文本转录和用户的人口统计信息摘要一起存储。

这种合成数据收集方式具有一定优势，例如可以精确控制收集的短语，数据的一致性有助于识别说话者人口统计信息中的差距，转录过程相对较快，并且可以通过众包的方式收集。然而，它也存在缺点。合成数据的有用性直接取决于脚本的质量，如果脚本中的短语不符合真实用户的表达习惯，那么音频数据将毫无价值。此外，合成数据通常来自模拟用户，他们的说话方式和语调可能与真实用户不同，而且合成数据收集过程中的用户人口统计分布可能与真实用户群体的分布完全不同，这可能导致数据出现偏差，进而影响 AI 助手的性能。

合成数据收集过程可以用以下 mermaid 流程图表示：

graph LR
    A[构建话语脚本] --> B[多样化用户朗读]
    B --> C[存储音频数据]

语音 - 文本模型的测试

在收集到一定的音频数据后，Fictitious 公司可以对语音 - 文本模型进行测试。大多数 AI 平台都集成了一个或多个语音 - 文本引擎，这些引擎通常带有默认的预训练模型。对于 Fictitious 公司来说，由于他们的大部分术语是通用的，如密码重置、预约和就业咨询等，默认模型可能就足够了。但在训练自己的定制模型之前，他们应该先使用通用模型进行测试，将其作为与定制模型进行比较的基线。

测试过程如下：
1. 构建测试集 ：从音频数据中构建测试集，每个测试数据由一个音频文件和该音频文件的正确转录组成。
2. 模型转录 ：语音 - 文本模型对音频文件进行转录，每个测试数据对变为三元组，即音频文件、正确转录和模型转录。
3. 比较转录结果 ：将模型的转录结果与正确转录进行比较。

为了评估语音模型的性能，通常使用以下三个指标：
1. 单词错误率（WER） ：评估转录错误的单词数量，计算公式为模型转录中错误单词的数量除以正确转录中单词的数量。例如，“I need to apply for a job” 有一个替换错误（“the” 替换 “a”），“how many Fiction Bucks do I have” 有一个替换错误（“bookstore” 替换 “Bucks”）和两个删除错误（“do” 和 “I”）。虽然 WER 可以通过简单地计算错误数量来计算，但对于 Fictitious 公司来说，它缺乏重要的上下文信息，难以直接将 WER 与通话的成功率（如通话的保留率）联系起来。
2. 意图错误率（IER） ：评估由转录错误导致的意图检测错误数量。Fictitious 公司的成功指标之一是成功处理通话并完成任务，而准确识别用户意图是实现这一目标的重要部分。如果助手能够正确识别用户的意图，那么语音转录错误就不是问题。IER 可以通过以下步骤计算：
- 收集音频文件和正确转录。
- 语音模型对音频文件进行转录。
- 助手对正确转录和模型转录进行意图分类。
- 比较预期意图和预测意图。

IER 能够更直接地反映语音 - 文本模型对助手意图识别的影响，当预测的意图错误时，多个成功指标（如用户满意度和通话保留率）都会下降，因此低 IER 非常重要。
3. 句子错误率（SER） ：评估包含转录错误的句子数量与总句子数量的比例。对于不包含意图的音频片段，SER 是评估语音 - 文本模型的一个很好的指标。当整个字符串必须正确转录才能使系统成功时，SER 尤为重要。例如，在 Fictitious 公司的密码重置流程中，用户的出生日期等信息必须准确转录，否则可能会导致密码重置错误。

以下是 Fictitious 公司 SER 的计算示例：
| 预期（正确）转录 | 实际模型转录 | SER |
| — | — | — |
| “January first two thousand five” | “January first two thousand five” | 0%（无错误） |
| “One eight nineteen sixty - three” | “June eight nineteen sixteen” | 100%（有错误） |
| “seven four twenty oh one” | “eleven four twenty oh one” | 100%（有错误） |
| 总计 | | 66.7% |

在计算 SER 时，对于一些数据输入，可能需要在将语音 - 文本模型的转录与正确转录进行比较之前进行后处理步骤，例如将 “for” 和 “four” 都视为数字 “4”，“to” 和 “too” 视为 “two”。某些语音 - 文本模型可能会自动提供这种功能，称为智能格式化或识别提示。

通过对这些指标的评估，Fictitious 公司可以决定当前语音模型的性能是否足够，或者是否需要训练定制模型以获得更好的结果。接下来，我们将探讨如何训练定制的语音 - 文本模型。

语音助手的额外训练与模型评估

训练语音 - 文本模型

在完成对语音 - 文本模型的测试和评估后，若现有模型性能无法满足需求，就需要训练定制化的语音 - 文本模型。大多数 AI 平台都集成了语音引擎，且这些引擎大多支持定制化训练。不同的语音引擎提供商提供的定制化程度有所不同，我们应该选择满足自身需求的最低定制化级别，因为语音训练的回报会逐渐递减，某些级别的定制化可能需要数小时甚至数天来完成训练。

在开始训练之前，需要为特定用例选择合适的基础模型。基础模型无需任何定制训练即可使用，并且有多种类型可供选择。例如，若使用英语，可能会有美国英语、英国英语或澳大利亚英语等不同方言的模型可供选择。在同一种语言和方言下，还可以选择针对电话、移动设备或视频等不同音频来源进行优化的模型。基础模型由语音平台提供商使用他们拥有的数据进行训练，通常包含来自各种不同用户（包括母语和非母语使用者）的语言和音频数据。尽管语音平台提供商正在努力减少模型的偏差，但在使用前仍需针对具有代表性的用户群体对模型进行测试。

选择基础模型的流程可以用以下 mermaid 流程图表示：

graph LR
    A[确定使用的语言和方言] --> B[考虑音频类型]
    B --> C[评估数据代表性]
    C --> D[选择合适的基础模型]

选择好基础模型后，就可以开始训练定制模型。定制模型是对基础模型的扩展或调整，其训练过程如下：
1. 选择基础模型 ：从语音平台提供的多种基础模型中，挑选出最适合特定用例的模型。
2. 创建定制模型 ：基于选定的基础模型，创建一个可以进行定制化训练的新模型。
3. 使用定制数据训练 ：使用特定的数据对定制模型进行训练，使模型能够更好地适应特定的使用场景和需求。

定制模型训练过程可以用以下 mermaid 流程图表示：

graph LR
    A[选择基础模型] --> B[创建定制模型]
    B --> C[使用定制数据训练]

根据语音平台提供商的不同，通常有以下三种定制化选项：
1. 语言模型 ：是语音引擎可能听到的文本话语的集合。通过提供特定的文本话语，可以帮助语音引擎更好地理解和识别相关的语音内容。
2. 声学模型 ：是一种结合音频和文本进行训练的语音 - 文本模型。声学模型可以学习语音信号的特征和模式，从而提高语音识别的准确性。
3. 语法：是语音 - 文本模型用于将音频信号转录为文本的一组规则或模式。语法可以帮助模型更准确地理解和处理特定的语言结构和表达方式。

在实际应用中，可以根据语音助手的不同部分选择不同的训练选项。例如，对于某些特定的业务流程或领域，可以使用语言模型来提高对相关术语和表达方式的识别能力；对于需要高精度语音识别的场景，可以使用声学模型进行训练；而对于具有特定语法规则的语言结构，可以使用语法进行定制化训练。

通过以上对语音数据收集、模型测试和训练的详细介绍，我们可以看到，在语音助手的开发和优化过程中，每个环节都至关重要。通过合理选择数据收集方式、准确评估模型性能并进行有效的定制化训练，可以不断提高语音助手的性能和用户体验，使其更好地满足各种实际应用的需求。