dataspeech仓库处理语音数据

最新推荐文章于 2025-05-12 20:52:57 发布

53年7月11天

最新推荐文章于 2025-05-12 20:52:57 发布

阅读量761

点赞数 8

文章标签： python 音频大数据

本文链接：https://blog.youkuaiyun.com/m0_56741459/article/details/140989009

版权

概述

中英文数据处理结果查看

https://huggingface.co/datasets/foreveronly12/test_qwen_wenet

https://huggingface.co/datasets/foreveronly12/test_giga_des

仓库地址：

https://github.com/huggingface/dataspeech/tree/main

dataspeech仓库提供了完整代码以及运行脚本来为语音数据集打标签。总体而言将处理过程分为三个阶段，第一个阶段基于原始数据集，为每一段音频计算诸如"音高，讲话速度，信噪比"等等的特征。第二阶段使用第一阶段生成的特征将原本特征的数值映射到一个个区间中。例如：讲话速度由第一阶段的速度值变为第二阶段处理完后的"相当慢-相当快"等七个区间（区间个数可预设）。第三阶段通过接入LLM，使用第二阶段的特征生成prompt，让LLM生成每一段音频的文本描述。例如："一个男性以略低音调、相当慢的速度讲话，他的声音在相当封闭的空间里显得相当单调，同时伴随着适中环境声音。"

第二阶段映射音高时，考虑到男女音高天然的差异，源代码是基于每段音频的speaker_id和性别进行统计映射，某些数据集可能没有speaker_id和性别列，因此使用file_name代替speaker_id，引入w2v2-age-gender-how-to仓库为每一段音频预测性别。因此预测性别需在第二阶段前完成。

官方仓库的第二阶段运行脚本还提供了一个 --avoid_pitch_computation命令参数，如果觉得音高特征不甚重要，可以使用该参数避免计算音高。

w2v2-age-gender-how-to仓库地址：

https://github.com/audeering/w2v2-age-gender-how-to/tree/master

准备工作

基于有一个本地数据集，使用dataspeech仓库进行处理的准备工作。仓库建议构建一个包含完整音频路径的csv文件，即csv最初有三列，一列file_name,一列text（即音频文件的文本内容），一列audio（先用音频路径代替，后面转成音频）。然后使用依次使用DatasetDict.from_csv()，cast_column(),push_to_hub()方法。数据集较大时可以省去push_to_hub()推送步骤，直接save_to_disk() 保存在本地。

这一步骤记得将原始存储在服务器上音频数据路径保留下来！

准备工作链接：

https://github.com/huggingface/dataspeech#how-do-i-use-datasets-that-i-have-with-this-repository

第一阶段

英文数据将仓库中的第一阶段运行脚本中的推送到hf参数删除即可，代码中只需要修改一些加载数据集和模型的方法和路径即可。

中文数据修改运行脚本同上，代码除了同上，由于源代码是用来处理英文数据的，因此第一阶段在计算说话速度的方法中引入的g2p库（语音转音素）并不适用于中文数据，需要定位到计算速度部分，引入中文拼音库，进行修改。

由于预测性别需要使用到音频数据，但是源代码中处理完了第一个阶段之后音频数据就可有可无了，所以会有一行将音频数据删除的代码。因此处理过程中可以将预测性别并入到第一阶段一起处理。

第二阶段

英文数据将仓库中运行脚本的 --avoid_pitch_computation，--path_to_bin_edges两个参数删除，第一个参数用于避免计算音高特征，第二个参数则是提供一个特征的区间边界json文件。例如：{"speaking_rate": [3.508771929824561, 6.187242299296628, 8.865712668768696, 11.544183038240764, 14.22265340771283, 16.901123777184896, 19.579594146656966, 22.258064516129032]，.....}这八个值分别代表了speaking_rate七个区间的左右边界值。我们的处理过程需要重新计算这些边界值而不是用预设好的。代码同理需要修改一些加载数据集和模型的方法和路径，其次就是映射音高特征部分的代码，像前面说的一样，由于数据集缺失speaker_id列，因此用file_name进行替代，需要定位到该方法进行修改。

中文数据运行脚本的修改和代码的修改同上。此外就是代码中一些英文区间改成中文区间的修改，例如quite slow

改为相当慢。