语音合成论文优选:自动打分系统MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文介绍了一种新的MOS预测系统MBNet,用于更准确地估计合成语音的质量。通过结合平均得分和评分者偏差,该系统旨在减少手动打分所需的人力和时间。与现有系统MOSNet相比,MBNet在实验中表现更优。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

MBNet: MOS Prediction for Synthesized Speech with Mean-Bias Network

本文是中国科学技术大学在2021.02.27更新的文章,主要工作是对合成的音频进行MOS值得预测,从而减少大量劳动力,具体的文章链接

https://arxiv.org/pdf/2103.00110.pdf

(最近想搭建模型自动测试系统,因此看了MOS自动打分系统相关文章,感觉主要还是数据)

1 研究背景

我们知道语音合成系统的好坏最直观的判断是合成的音频质量好坏,这就是我们常用的MOS( mean opinion score)值,但MOS值得打分需要许多领域内的人员进行打分,这需要昂贵的人力资源和时间开销,因此自动打分MOS的系统被提出,比如MOSNET,AutoNET等等。但以前的系统训练都是一条语句对应一个均值,这忽略了每个打分人之间的偏差,本系统就是在现有的系统上增加变差模块,更好的获取MOS值。

2 详细设计

其实系统很简单,如图1所示:Mean score和judge score。mean score跟以前一样,一条一句对应一个mos值,judge score对每位打分人员打的分与均值之间的偏差进行判断,整个句子的MOS值为mean score + judge Score。系统的参数为图3所示。(这样的系统感觉还是数据最可贵)

# MOS-PESQ The project is a tool that can get MOS(PESQ) score for the voice. PESQ measure: ------------- Usage of the PESQ objective measure is as follows: [pesq_mos]=pesq(cleanfile.wav,enhanced.wav) where 'cleanfile.wav' contains the clean speech file and 'enhanced.wav' contains the enhanced file. Example: To run the PESQ objective measure with the example files provided, type in MATLAB: >> pesq('sp09.wav','enhanced_logmmse.wav') ans = 2.2557 Source code for the PESQ implementation is available from a CD-ROM included in the following book: Loizou, P. (2007) "Speech enhancement: Theory and Practice", CRC Press. COMPOSITE MEASURE: ----------------- Usage: [Csig,Cbak,Covl]=composite(cleanfile.wav,enhanced.wav) where 'Csig' is the predicted rating of speech distortion 'Cbak' is the predicted rating of background distortion 'Covl' is the predicted rating of overall quality. You may run example files included in the zip file. In MATLAB, type: >> [c,b,o]=composite('sp09.wav','enhanced_logmmse.wav') LLR=0.681368 SNRseg=3.991727 WSS=49.671978 PESQ=2.255732 c = 3.3050 b = 2.6160 o = 2.7133 where 'sp09.wav' is the clean file and 'enhanced_logmmse.wav' is the enhanced file. The predicted ratings for overall quality was 2.7133, for background was 2.61 and for signal distortion it was 3.3050. Operating steps: ----------------- >> ./matlab-PESQ/readme.txt Thank: ----------------- Any questions, please E_mail: kinglongbest@163.com/245051943@qq.com 操作步骤 1.将所录序列加载如当前工作路径,也可以按自己工作路径自行加载; 2.在read.m中修改参考序列,默认为ref.wav,16KHz采样; 3.利用wavdivide.m对所录多组序列文件进行拆分(支持多种采样频率),并按序保证至当前路径; 4.运行tongji.m计算PESQ_MOS得分并通过excel/txt输出至指定路径; NOTE: 对于步骤4,每次执行记得修改excel中输出列位置,如cellnames2=['B',num2str(k+1),':B',num2str(k+1)];, 指定写入B列,下次执行改为C列,以此类推; 其中ref_8k.wav为8KHz采样测试序列,ref.wav为16KHz,ref_3s.wav只是为方便测试在ref.wav语音前加3s静音;
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值