文本分类器与语音助手训练全解析
在人工智能领域,文本分类器和语音助手的训练是至关重要的环节。下面将详细介绍文本分类器的扩展、不同类型分类器的比较、增加训练数据的影响,以及语音助手训练中语音数据的收集等内容。
扩展简单分类器
为了让分类器更好地识别意图,我们可以向下扩展简单分类器。以有 10 个意图,每个意图有 5 个示例为例,每个意图将用 5 个正例和 45 个反例进行训练。由于每个意图的反例数量是正例的 9 倍,分类器自然会学习到大多数话语不是正例。
一体化分类器
有些 AI 平台可能使用单个分类器而非多个二元分类器。单个分类器具有相似的数学结构,但方程略有不同。以下是对其的详细分析:
-
权重特点
:在训练三个输入类的单个分类器中,与其他情况相比,其权重总体较小,且偏置参数并不总是负的。这是因为该分类器假设每个输入都属于它,不存在超出范围话语的概念。若要检测超出范围的情况,需专门添加一个新意图。
-
预测示例
:对“reset my password”和“tell me a joke”这两个话语进行预测,分类器会选择概率最高的分类。对于“reset my password”,分类正确,且预测正确的概率为 47.3%;“tell me a joke”也被分类为 #reset_password,但概率较低,为 36.8%。与随机选择意图相比,“reset my password”的 47.3% 置信度明显高于随机选择的 33.3%,而“tell me a joke”的 36.8% 置信度几乎与随机选择无异。
二元分类器与一体化分类器的比较
一体化分类器可能比多个分类器消耗更少的系统资源,但置信度的计算可能会让人困惑。在训练数据量较小时,很难判断一个概率是否良好。不过,当分类器在大量数据上训练时,预测会更准确。
一体化分类器需要额外训练一个“其他”类,代表不属于特定训练意图的所有语句。但训练这个类可能困难且耗时,因为可能性众多。
无论使用哪种分类器,一个意图的正例必然是其他类的反例。二元分类器会自动获得大量反例,并通过偏置参数隐式处理“其他”类;而一体化分类器必须显式地用“其他”示例进行训练。二元分类器也可以选择训练“其他”类,不同的 AI 平台有不同的实现方式,有些允许创建反例或负例,有些则需将“其他”定义为正类。
增加训练数据的影响
增加训练数据的数量和多样性可以提高分类器的性能。以最初使用三个话语(每个意图一个)的测试为例,当训练数据增加 500% 并使用不同的单词和短语时,会产生显著影响。
-
新训练数据
:新的训练数据涵盖了更多的示例,如 #reset_password 类有“Reset my password”“I can’t log in”等;#store_hours 类有“Are you open on Thanksgiving”“How late are you open today”等;#store_location 类有“Where are you located”“Are you downtown”等。
-
分类器变化
:新数据训练后的分类器学习到更强的推理能力,权重变化更大。最初的分类器给每个单词分配相同的权重(0.378),表明每个单词同等重要;而更新后的分类器知道某些单词对识别意图更重要。例如,对于 #reset_password 意图,“password”是最重要的单词;对于 #store_hours 意图,“open”比“store”更重要。
-
预测改进
:分类器的预测性能也得到了提升。“reset my password”被预测为 #reset_password 的概率从之前的 0.704 提高到 0.849;“tell me a joke”被预测为非 #reset_password 的概率从 0.601 提高到 0.623。
以下是不同分类器和性能的总结表格:
| 参考 | 意图数量 | 训练示例数量 | “reset my password” 预测 | “tell me a joke” 预测 |
| ---- | ---- | ---- | ---- | ---- |
| 图 8 | 1 | 2 | #reset_password: 0.790 | #reset_password: 0.547 |
| 图 10 | 3 | 3 | #reset_password: 0.704 | Not #reset_password: 0.601 |
| 图 13 | 3 | 18 | #reset_password: 0.849 | Not #reset_password: 0.623 |
语音助手训练中的语音数据收集
在语音助手的训练中,语音数据的收集至关重要。以下是关于语音数据收集的详细内容:
-
数据格式
:语音数据是音频文件和其文本转录的配对。例如,音频文件 Password.wav 对应的文本是“reset my password”。训练和测试语音转文本模型需要这种格式,因为我们希望模型知道单词的发音。
-
三个 Vs 原则
:语音数据也需遵循三个 Vs 原则,即多样性、数量和准确性。
-
多样性
:数据应涵盖人们会说的内容以及他们说话的方式,包括每个意图的音频数据和说话者的人口统计学多样性。
-
数量
:根据用例不同,训练语音转文本模型可能需要 5 到 25 小时的音频数据。如果仅用于测试,所需数据较少。
-
准确性
:音频文件必须准确转录,否则会影响模型的评估和训练。通常,专家转录一小时音频需要 6 到 10 小时,常见做法是先使用语音转文本引擎进行初步转录,然后人工校对。
语音数据的潜在来源主要有通话记录和合成数据。下面重点介绍通话记录作为语音训练数据的情况:
-
处理步骤
:通话记录需要进行处理才能用于语音训练和评估。由于通话记录包含两个说话者,只有用户说话的部分有用,需要从记录中提取出来。如果音频文件为每个说话者提供了单独的通道,可以自动提取呼叫者的通道;否则,需要手动提取。
-
示例分析
:如一个 8 秒的通话记录,前 5 秒是客服说话,中间 1 秒停顿,后 2 秒是用户说话,需要将这 2 秒的音频提取并保存为新文件,如 can_you_reset_my_password.wav,并确保转录内容与文件一起存储。另一个用户 verbose 的通话记录,应只提取包含意图陈述的音频段。
-
优缺点总结
:通话记录是很好的语音数据来源,因为它们是真实数据,包含各种说话者的人口统计学信息、口音和特定领域词汇的发音,且可用于识别意图和训练语音转文本模型。但处理通话记录耗时,包含大量无用数据,且有时会以有损格式保存,影响音频质量。
以下是使用通话记录作为语音数据的优缺点表格:
| 优点 | 缺点 |
| ---- | ---- |
| 包含代表性的呼叫者人口统计学、口音和特定领域词汇发音 | 处理记录以提取感兴趣的片段需要额外时间 |
| 包含代表性的主题 | 记录需要漫长的转录过程 |
| 可用于识别意图和训练语音转文本模型,同一来源有多种用途 | 人类与人类和自动化助手的交流方式不同,可能有大量无用数据 |
| | 记录有时以有损格式保存,音频质量可能比实际通话差 |
mermaid 流程图展示通话记录处理流程:
graph LR
A[通话记录] --> B{是否有单独通道}
B -- 是 --> C[自动提取呼叫者通道]
B -- 否 --> D[手动提取呼叫者音频]
C --> E[保存为新文件并关联转录内容]
D --> E
通过以上对文本分类器和语音助手训练的介绍,我们可以看到不同类型分类器的特点、训练数据的重要性以及语音数据收集的方法和注意事项。在实际应用中,我们可以根据具体需求选择合适的分类器和数据收集方式,以提高模型的性能。
文本分类器与语音助手训练全解析
文本分类器训练的实验与建议
对于文本分类器的训练,我们可以进行一些实验来进一步优化性能。相关代码可在指定的 GitHub 仓库(http://mng.bz/JvWz)中获取,其中包含 Jupyter Notebook 和示例数据。
- 增加训练数据或意图类 :可以尝试逐步增加训练数据或意图类,每次只改变一个因素,以便评估其影响。例如,先添加一个新意图,观察分类器的变化,再添加第二个新意图。这样能清晰了解每个新增因素对分类器的作用。
-
改变分类算法
:如果想要更深入地探索,还可以尝试改变分类算法。例如,不局限于简单的词频统计,而是寻找更好的特征。常见的优化方法有:
- 词干提取和词形还原 :将不同形式的单词统一处理,如“Open”和“opening”、“store”和“stores”,使分类器能更好地识别语义。
- TF - IDF 算法 :该算法可以为不同的单词分配不同的权重,稀有的单词通常更重要,会被赋予更高的权重,从而提高分类的准确性。
语音助手训练中处理特定问题的方法
在语音助手的训练中,除了收集合适的语音数据,还需要处理一些特定的问题,如处理特定领域的行话和提高语音转文本模型的准确性。
- 处理特定领域行话 :当语音转文本模型遇到特定领域的行话时,可能会出现识别错误。例如,“Fiction Bucks”可能被误识别为“Fiction books”。为了解决这个问题,需要收集包含这些行话的语音数据进行训练,让模型熟悉这些特定词汇的发音。
-
提高语音转文本模型准确性
:
- 数据清洗 :确保收集的语音数据准确无误,去除噪声和错误的转录。
- 模型调优 :可以尝试不同的语音转文本模型,并对其参数进行调优,以提高识别的准确性。
文本分类器和语音助手训练的总结
- 分类器核心要点 :分类器将文本转换为数值,构建预测回归模型。其预测结果受训练数据的数量和多样性影响很大。AI 助手可以使用单个分类器或多个二元分类器,不同的选择会影响对预测结果和相关概率的解读。
- 语音助手关键环节 :语音助手的训练需要收集合适的语音数据,遵循多样性、数量和准确性的原则。通话记录是一种重要的数据来源,但需要进行处理以提取有用信息。同时,要注意处理特定领域的行话和提高语音转文本模型的准确性。
以下是文本分类器和语音助手训练的关键要点总结表格:
| 类别 | 要点 |
| ---- | ---- |
| 文本分类器 | 1. 扩展简单分类器可提高识别能力
2. 一体化分类器和二元分类器各有优缺点
3. 增加训练数据可提升性能
4. 可通过实验优化分类算法 |
| 语音助手 | 1. 语音数据需遵循三个 Vs 原则
2. 通话记录是重要数据来源但需处理
3. 处理特定领域行话和提高模型准确性很关键 |
mermaid 流程图展示语音助手训练的整体流程:
graph LR
A[收集语音数据] --> B{数据是否符合三个 Vs}
B -- 是 --> C[处理通话记录]
B -- 否 --> A
C --> D[训练语音转文本模型]
D --> E{模型是否准确处理行话}
E -- 是 --> F[集成到语音助手]
E -- 否 --> G[收集更多行话数据]
G --> D
综上所述,文本分类器和语音助手的训练是一个复杂但有规律的过程。通过合理选择分类器类型、增加训练数据、优化分类算法,以及正确收集和处理语音数据,我们可以提高模型的性能,使语音助手更好地服务于用户。在实际应用中,要根据具体情况灵活运用这些方法,不断探索和改进,以达到最佳的效果。
超级会员免费看
1541

被折叠的 条评论
为什么被折叠?



