语音转文字转录的聚类分析
1. 数据可视化与数据集创建
在进行语音转文字转录的聚类分析之前,我们先对音频数据进行了可视化。通过观察音频统计的配对图,发现七本书的数据之间没有显著差异,除了第一本书的最大振幅分布与其他书籍相比稍微偏右。
接下来,我们要创建数据集。虽然有包含音频内容转录的数据集,但我们要模拟现实中处理语音转文字结果的常见场景。
2. 语音转文字技术
语音转文字,也称为语音识别,是一项前沿技术,能将语音实时或批量准确转换为文本。机器学习的发展使得先进的系统能够理解多种语言的自然语音。深度神经网络在语音识别中表现出色,当前系统的错误率在 3% - 5% 之间,与人类转录录音音频的错误率相近。这是因为数据具有组合性质,波形可以分解为音素,音素是构成单词的基本单位,单词再组合成句子。
2.1 实现步骤
- 导入必要模块并设置识别器 :
import speech_recognition as sr
# Create an instance of the recognizer.
Recognizer = sr.Recognizer()
# Set the energy threshold.
Recognizer.energy_threshold = 300
- 遍历数据集的所有输入文件,使用 Google 语音识别 API 进行转录 :
超级会员免费看
订阅专栏 解锁全文
1341

被折叠的 条评论
为什么被折叠?



