语音识别与语音合成跨设备交互系统介绍
文章平均质量分 91
AI浪人
现在研究方向为大模型安全,早期为语义分割
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
(附代码)保姆级教程:中文语音识别自录制数据处理:从 WAV 和 WRD 文件生成数据集
本文介绍了如何使用Python对语音识别数据进行预处理,具体步骤包括从madata数据集中提取音频(WAV)和对应的文字(WRD)文件,生成词汇表,并将文字映射到字符索引。通过创建字符映射字典,将数据处理成适用于深度学习训练的格式,最终保存为JSON文件。文章还提供了生成文件列表的功能,方便后续的训练和测试数据管理。此流程适用于语音识别任务中的数据预处理阶段,帮助提升模型训练的效率和准确性。原创 2025-01-03 10:29:02 · 2004 阅读 · 1 评论 -
(附代码)保姆级教程:用 Python 将 M4A 转换为 WAV 和 WRD 文件
本文是一个保姆级教程,详细讲解了如何使用 Python 将 M4A 音频文件 转换为 WAV 文件,并通过 Vosk 模型 提取文字和时间戳信息,生成 WRD 文件。原创 2024-12-25 11:03:20 · 1813 阅读 · 0 评论
分享