raspberrypi5
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
39、音频深度伪造检测与定制关键词识别技术研究
本文研究了音频深度伪造检测与基于合成语音的定制关键词识别技术。在音频伪造检测方面,提出了一种结合数据增强、卷积块、自注意力机制和GRU的网络结构,并引入时间对比损失(TCLoss)提升边界敏感性,配合中值滤波后处理提高稳定性。在定制关键词识别方面,通过TTS生成器将文本转为合成语音,结合共享编码器与CIF机制实现跨模态对齐,显著提升了识别准确率。实验表明,该方法在Aishell-1数据集上优于基线与DSP方法。两类技术分别在信息安全与智能交互领域具有广泛应用前景,未来可通过融合AI技术、加强数据共享与标准化原创 2025-10-06 10:54:33 · 91 阅读 · 0 评论 -
38、中文博客上半部分:中国英语学习者英语语调感知及部分伪造音频检测研究
本研究分为两部分:第一部分探讨中国英语学习者对英语语调的感知,发现重音模式显著影响疑问语调的感知,英语专业学习者对陈述语调更敏感,但视觉线索无显著影响;第二部分提出一种基于预训练模型wav2vec2.0和梅尔频谱图的伪造音频检测系统,结合数据增强与时间对比损失,在部分伪造音频定位任务中取得良好效果。研究为英语教学中的语调训练和语音安全领域的深度伪造检测提供了理论与实践启示。原创 2025-10-05 10:37:08 · 97 阅读 · 0 评论 -
37、DKU - MSXF 说话人分割系统与中国英语学习者语调感知研究
本文介绍了DKU-MSXF说话人分割系统的设计与性能,该系统融合了基于聚类和TSVAD的方法,在VoxConverse和VoxSRC-23测试集上取得了优异的说话人分割错误率(DER)。同时,研究还探讨了中国英语学习者对英语陈述句和疑问句语调的听觉与视觉感知能力,分析了句末重音模式、英语熟练度及视觉线索对其语调感知的影响,结果表明高熟练度学习者在语调识别上更具优势,而视觉线索未显著提升感知效果。两项研究分别为语音处理技术和二语语调教学提供了重要参考。原创 2025-10-04 11:24:57 · 37 阅读 · 0 评论 -
36、探索AI语音吸引力:韵律因素与系统优化
本文探讨了AI语音吸引力的关键因素,重点分析了基频、语调和语速等声学韵律参数对用户感知的影响。研究发现,ChatGPT语音因自然的呼吸声、停顿和高带宽(约12kHz)而具有高度吸引力,且其语音特征会影响用户对其面部吸引力的心理预期。通过英语和芬兰语实验验证,基频过高、语速过快及单调语调显著降低语音吸引力,而适度低频、丰富语调和适中语速更受青睐。此外,介绍了在VoxSRC-23挑战赛中表现优异的DKU-MSXF说话人分割系统,其实现了4.30%的低分割错误率。最后提出AI语音优化建议,并展望多语言扩展、情感融原创 2025-10-03 09:24:20 · 45 阅读 · 0 评论 -
35、智能语音助手研究:从CAM - GUI到AI语音吸引力
本文探讨了两款前沿智能语音助手技术:CAM-GUI与AI语音吸引力。CAM-GUI作为移动GUI对话助手,在易用性、功能性和兼容性方面表现优异,具备良好的容错能力和对话性能,未来将通过数据优化、复杂任务支持和大语言模型应用持续改进。另一方面,针对AI语音吸引力的研究发现,ChatGPT语音在自然度、偏好和友好度方面表现最佳,韵律参数如基频和语速显著影响语音吸引力。研究还指出个性化合成及跨语言文化拓展是未来方向。整体上,这两项研究为提升智能语音助手的可用性、用户接受度和情感连接提供了重要参考。原创 2025-10-02 09:50:42 · 23 阅读 · 0 评论 -
34、CAM - GUI:移动图形用户界面上的对话式助手
CAM-GUI 是一个基于图形用户界面(GUI)的移动对话式助手闭环系统,旨在通过理解用户语音命令和屏幕内容,直接在设备上执行操作,无需依赖传统API。系统由交互模块和决策模块构成,结合ASR、TTS、BERT和BART等技术,支持堂食订单、外卖点餐和账户设置等多种任务。项目构建了包含60条对话轨迹的数据集,并通过实验演示和用户研究验证了系统的可用性、稳定性和用户友好性。尽管在价格识别等细节上仍有改进空间,但该系统为视障和老年用户提供了更广泛的应用支持,展现了强大的交互潜力。原创 2025-10-01 12:33:32 · 34 阅读 · 0 评论 -
33、预训练模型在心音检测中的应用与性能评估
本文系统评估了多种音频与语音预训练模型(包括PANNs、SSAST、BEATs、HuBERT和WavLM)在心音检测任务中的性能,涵盖高质量数据、抗噪能力及真实临床场景三个层面。实验基于PhysioNet/CinC 2016和CirCor DigiScope两个公开数据集,比较了不同模型在未微调与微调后的准确率、F1分数等指标。结果表明,BEATs模型在未微调时表现最佳,而PANN-V1微调后达到最高性能;PANN-V2展现出较强的抗噪能力;在真实儿科门诊环境中,BEATs仍保持相对稳健的表现。研究还分析了原创 2025-09-30 10:56:12 · 45 阅读 · 0 评论 -
32、零样本歌唱语音转换与预训练模型在心音检测中的应用研究
本文研究了零样本歌唱语音转换与预训练音频/语音模型在心音检测中的应用。在歌唱语音转换方面,提出基于Glow的音色空间建模方法,在自然度和相似度上均显著优于基线系统,并通过引入激励信号和24kHz解码器提升音质与基频控制。在心音检测方面,评估了PANNs、SSAST、BEATs、HuBERT和WavLM等预训练模型,发现PANN-V1优化后准确率达94.02%,且PANN-V2展现出优异抗噪能力。研究进一步分析了模型在不同噪声环境及真实临床数据集CirCor DigiScope上的表现,探讨了技术在音乐创作、原创 2025-09-29 16:16:08 · 29 阅读 · 0 评论 -
31、零样本歌唱语音转换:基于音色空间建模与激励信号控制
本文提出了一种基于音色空间建模与激励信号控制的零样本歌唱语音转换方法,通过改进VITS框架实现了高质量、高稳定性的歌声转换。该方法利用Glow模型构建连续紧凑的音色空间,支持无需目标歌手训练数据的零样本转换;引入激励信号生成器以精确控制基频,结合基于调移的音高映射策略有效避免走音问题;采用双解码器结构提升48kHz高保真波形建模的稳定性。实验结果表明,该方法在相似度、自然度和音高准确性方面均优于传统方法,具有广泛应用于音乐创作、娱乐和教育领域的潜力。原创 2025-09-28 09:49:06 · 25 阅读 · 0 评论 -
30、音频-视觉说话人分割中的预训练语音模型探索
本文提出了一种基于预训练语音模型的音频-视觉说话人分割(AVSD)方法,通过引入监督预训练模型(如ResNet、ECAPA-TDNN)和自监督模型(如WavLM、HuBERT)作为音频与说话人嵌入提取器,结合唇编码器提取视觉特征,并采用联合训练策略优化音频编码器、说话人编码器与音频-视觉解码器,有效缓解了分阶段训练带来的性能损失。研究还对比了Transformer、Conformer和交叉注意力机制在解码器中的融合效果,实验结果表明该方法在MISP数据集上显著降低了说话人分割错误率(DER)。该方法在多媒体原创 2025-09-27 11:38:24 · 40 阅读 · 0 评论 -
29、语音情感识别与增强技术研究
本文研究了语音情感识别与语音增强两项关键技术。在情感识别方面,提出了基于自适应动态图卷积网络(ADGCN)的模型,通过适配器提取话语内信息,并引入自适应输出残差和动态层残差机制建模话语间上下文,在多个指标上显著优于现有方法。在语音增强方面,提出了一种无需干净语音的迭代噪声目标训练方法,通过逐步优化训练数据逼近理想噪声-干净语音对,在自监督条件下实现了接近监督方法的性能。实验验证了方法的有效性,并探讨了其在智能客服、智能家居和心理健康监测等场景的应用前景。未来工作将聚焦于多模态融合、迭代策略优化及更广泛数据集原创 2025-09-26 15:56:42 · 34 阅读 · 0 评论 -
28、语音质量与情感识别的前沿技术探索
本文探讨了基于时间包络特征的语音增强方法与自适应深度图卷积网络(ADGCN)在对话语音情感识别中的应用。通过引入时间包络损失优化语音感知质量与可懂度,结合预训练模型Data2vec与适配器结构缓解数据稀缺问题,并利用ADGCN建模对话上下文信息。实验表明,该方法在IEMOCAP数据集上显著提升了情感识别准确率。文章还分析了技术优势、实际应用场景及未来研究方向,为智能人机交互提供了有力支持。原创 2025-09-25 16:22:33 · 18 阅读 · 0 评论 -
27、基于子带时间包络特征提升语音感知质量与可懂度
本文提出了一种基于子带时间包络特征的语音增强方法,旨在提升语音的感知质量与可懂度。通过引入子带时间包络作为辅助损失(ENVLoss),并结合多通道注意力机制对不同频率子带进行加权,使损失函数更符合人类听觉感知特性。进一步设计了融合时域与频域特征的联合损失函数,有效弥补了传统频域损失在相位信息上的不足。实验结果表明,该方法在多个客观指标(如PESQ、STOI、DNSMOS等)上均优于基线模型,显著提升了语音清晰度与可懂度,尤其在低信噪比环境下表现突出。本技术可广泛应用于语音通信、语音识别和音频处理等领域,具有原创 2025-09-24 15:21:26 · 38 阅读 · 0 评论 -
26、基于 Demucs 网络结构的丢包隐藏方法
本文提出了一种基于Demucs网络结构的时域丢包隐藏(PLC)方法,适用于实时语音通信中的丢包恢复。该方法采用因果卷积、LSTM层与U-Net架构相结合的模型,利用跳跃连接增强特征传递,并结合时域L1损失与频域STFT损失进行联合优化,有效提升了对丢失语音帧的重建质量。实验在LibriSpeech数据集上进行,使用PESQ和STOI指标评估,结果表明该方法在不同丢包率下均优于零填充、DNN、ResNet和CRN等现有方法,尤其在高丢包率场景中表现更优。文章还分析了方法的优势、应用前景及未来研究方向,展示了其原创 2025-09-23 12:39:08 · 28 阅读 · 0 评论 -
25、用于异常声音检测的跨域特征融合多分支网络
本文提出了一种用于异常声音检测(ASD)的跨域特征融合多分支网络(MBN-CFF),通过引入多分支架构、跨域特征融合(CFF)块、注意力沙漏(AS)块以及基于ArcFace损失的分类器,有效提升了检测性能。实验在DCASE2020任务2数据集上进行,结果表明该方法在多种机器类型上均取得优异表现,整体AUC和pAUC优于现有先进方法。消融研究验证了各关键组件的有效性,证明了CFF、AS块和多分支结构对性能提升的重要作用。原创 2025-09-22 13:52:30 · 44 阅读 · 0 评论 -
24、语音合成与异常声音检测技术新突破
本文介绍了语音合成与异常声音检测领域的两项最新技术突破:基于分层CVAE结构的端到端口音转换模型Accent-VITS,以及结合多分支网络与跨域特征融合的异常声音检测模型MBN-CFF。Accent-VITS在多个口音的语音自然度、说话人相似度和口音相似度上均优于传统方法;MBN-CFF在DCASE2020任务中实现了94.73%的AUC分数,显著提升了检测性能。两类技术在智能客服、工业监测、智能家居等领域具有广泛应用前景。原创 2025-09-21 10:49:07 · 39 阅读 · 0 评论 -
23、语音增强与口音转换技术:突破与创新
本文介绍了语音增强与口音转换技术的最新突破,重点探讨了一种结合卷积网络与GAN的联合语音增强框架及其在多种噪声环境下的优越性能。同时,提出了一种基于VITS的端到端口音转换模型Accent-VITS,通过分层CVAE和瓶颈特征约束,有效分离说话人音色与口音,在语音自然度、说话人相似度和口音相似度方面均优于传统方法。实验结果表明该技术在多语言环境下具备良好泛化能力,具有广泛应用于语音交互、语言学习和影视配音的前景。原创 2025-09-20 14:40:46 · 32 阅读 · 0 评论 -
22、基于神经声码器的单声道语音增强框架
本文提出了一种基于神经声码器的单声道语音增强框架,通过融合去噪网络与高保真对抗生成网络HiFi-GAN,在梅尔频谱域进行语音增强与波形合成。该框架采用联合训练策略,结合尺度不变信噪比(SI-SNR)和短时傅里叶变换(STFT)等多种损失函数,显著提升了语音质量与可懂度。实验在中文CSMSC和英文VoiceBank+DEMAND数据集上进行,结果表明该方法在PESQ、STOI、CSIG、CBAK等指标上优于OMLSA、SEGAN、DCCRN-E等传统及深度学习模型,展现出良好的跨语言鲁棒性与应用潜力。原创 2025-09-19 10:22:52 · 24 阅读 · 0 评论 -
21、基于深度神经网络的实时汽车发动机声音模拟与单声道语音增强框架探究
本文提出了一种基于深度神经网络的实时汽车发动机声音模拟方法,结合样本法与程序法,利用GLOLA算法和F0谐波特征实现高保真音频合成;同时,设计了一种基于Mel频谱图的单声道语音增强框架,集成去噪网络与生成式声码器,并通过联合训练提升语音质量。实验表明该方法在真实数据集上具有良好的实时性与有效性,适用于汽车仿真与语音处理应用。未来将优化模型压缩、数据扩展与RPM预测能力。原创 2025-09-18 14:35:46 · 26 阅读 · 0 评论 -
20、语音去混响与汽车发动机声音模拟技术研究
本文研究了语音去混响与实时汽车发动机声音模拟技术。在语音去混响方面,提出了任务自适应生成对抗网络(Task-Adaptive GAN),通过调整损失函数权重显著降低字错误率,提升混响环境下的语音识别性能。在发动机声音模拟方面,提出了一种结合基于样本与基于过程的混合方法,利用Griffin-Lim重叠相加(GLOLA)消除点击声,并通过深度神经网络根据RPM和踏板压力生成频谱,实验证明该方法在主观自然度和客观指标上均优于传统方法。未来将探索更优模型结构与更多输入参数以进一步提升性能。原创 2025-09-17 16:47:09 · 26 阅读 · 0 评论 -
19、基于任务自适应生成对抗网络的语音去混响技术助力鲁棒语音识别
本文提出了一种基于任务自适应生成对抗网络(Task-adaptive GAN)的语音去混响方法,旨在解决传统去混响技术与语音识别目标不一致的问题。通过引入音素状态预测判别器(适配器)和识别感知生成器,该模型使生成的语音特征更匹配后端识别系统的需求。在REVERB数据集上的实验表明,该方法显著降低了字错误率,在模拟和真实环境中相比传统GAN分别实现了18.6%和8.6%的性能提升,有效增强了远场语音识别的鲁棒性。原创 2025-09-16 16:58:20 · 19 阅读 · 0 评论 -
18、基于大语言模型递归交互的情感支持对话策略研究
本文提出了一种基于大语言模型递归交互的情感支持对话框架,通过结合领域特定LLM(如微调后的ChatGLM)与基础商用LLM(如ChatGPT),实现动态调整对话策略的协同机制。框架采用两阶段递归结构,在每一轮对话中交替生成响应与优化策略,融合专业心理治疗知识与自然对话能力。实验基于ESConv数据集,通过自动与人工评估验证了该方法在共情、连贯性、帮助性和融洽度方面的有效性,结果表明所提方法优于传统模型。未来将拓展至其他心理干预场景,但也面临缺乏高质量多轮数据和共情评估指标的挑战。原创 2025-09-15 12:40:41 · 37 阅读 · 0 评论 -
17、儿童语言发展与情感支持对话系统研究
本文探讨了汉语普通话学龄前儿童连续附加调(SuABT)的生成特点,分析了音高范围、时长及语用功能随年龄的变化,并揭示了儿童与成人在语言表达中的差异及其成因。同时,研究提出了一种基于支持性心理治疗的情感支持对话系统(STDS),通过两阶段递归框架提升大型语言模型在多轮情感对话中的策略运用与整体目标实现能力。实验表明,STDS在同理心、连贯性和帮助性方面优于基线模型,且具备即插即用特性,有效降低通用模型在心理咨询等专业领域的应用成本。原创 2025-09-14 11:40:02 · 24 阅读 · 0 评论 -
16、端到端流式可定制关键词检测与普通话学龄前儿童连续附加边界声调生产研究
本研究探讨了两个语音与语言发展领域的重要方向:一是基于端到端流式架构的可定制关键词检测模型,通过在Hey-snips数据集上的实验验证了其在误报率控制、多标签机制优势及处理效率方面的性能提升,并分析了不同负样本策略对模型的影响;二是针对普通话学龄前儿童连续附加边界声调(SuABT)的产出能力进行实证研究,考察2至7岁儿童在不同声调语境下音高轮廓的发展轨迹,揭示其随年龄逐步趋近成人模式的阶段性特征。研究结果为语音识别系统的优化设计以及儿童语言习得的教育干预提供了理论支持与实践指导。原创 2025-09-13 10:33:18 · 23 阅读 · 0 评论 -
15、端到端流式可定制关键词检测:基于文本自适应神经搜索
本文提出了一种端到端流式可定制关键词检测系统,基于文本自适应神经搜索技术,在连续语音流中实现对任意关键词的高效检测。通过引入多标签级联触发机制和关键词约束注意力,模型在训练和推理阶段保持一致,显著降低延迟并提升检测准确率。实验表明,该方法在LibriKWS和Hey-snips数据集上性能优于传统方法,同时搜索速度提升达44倍,具备良好的扩展性与实用性。原创 2025-09-12 12:48:31 · 27 阅读 · 0 评论 -
14、基于扩散模型的舞蹈生成快速采样方法
本文提出了一种基于扩散模型的舞蹈生成快速采样方法,通过改进DPM-Solver++算法并结合长序列生成策略,显著提升了生成速度。该方法将扩散过程建模为常微分方程求解,并引入重采样技术减少去噪步骤,在保证舞蹈动作物理合理性和节拍对齐的前提下,将采样步数从1000降至20,大幅缩短生成时间。实验在AIST++数据集上验证了方法的有效性,结果表明所提方法在集内与集外音乐条件下均具有优越的效率和实用性,为实时舞蹈生成提供了可行方案。原创 2025-09-11 16:46:59 · 40 阅读 · 0 评论 -
13、扬声器模拟与数据增强及舞蹈生成模型加速方法
本文探讨了基于有限元分析的扬声器模拟与数据增强方法在提升机器异常声音检测(MASD)模型性能方面的应用,以及舞蹈生成中扩散模型的快速采样技术。通过构建多材料、多几何结构的扬声器模型并模拟异常状态,生成多样化音频数据用于训练,显著提升了模型的AUC和pAUC指标。同时,针对舞蹈生成中扩散模型采样速度慢的问题,采用DPM-Solver++算法实现高效采样,并结合短序列相关性控制策略生成连贯长序列,有效提高了生成速度与质量。两种方法分别在工业声学检测与数字艺术领域展现出重要应用价值。原创 2025-09-10 13:18:47 · 26 阅读 · 0 评论 -
12、语音与噪声联合估计及机器异常声音检测的数据增强新方法
本文介绍了语音与噪声联合估计及机器异常声音检测中的两项创新方法。在语音处理方面,提出了一种基于SNR自适应目标学习的联合语音-噪声预测网络,通过双分支结构分别估计语音和噪声,并在CHiME-4真实场景下显著降低了词错误率(WER),相比基线模型提升约37%。在机器异常声音检测(MASD)方面,针对真实数据不足和AI生成声音不可信的问题,提出基于有限元分析(FEA)的数据增强方法,利用Ansys进行声学模拟,生成具有物理意义的机器声音,有效提升了模型在DCASE 2023任务2上的性能。尽管当前方法存在计算成原创 2025-09-09 14:46:19 · 32 阅读 · 0 评论 -
11、基于WBIG监督度量学习的说话人验证及SNR自适应目标学习的语音增强方法
本文提出两种创新性语音处理方法:在说话人验证中,基于类内和类间点插值生成(WBIG)的监督度量学习方法通过合成高质量负样本显著提升验证性能,在CNCeleb和VoxCeleb数据集上均取得更低的EER;在语音增强方面,提出SNR自适应目标学习策略,根据噪声特性动态优化增强目标,有效缓解SE与ASR模块间的不匹配问题,使WER相对降低37%。实验验证了方法在不同骨干网络和联合估计网络中的有效性与泛化能力,并探讨了未来在更复杂场景和其他语音任务中的应用前景。原创 2025-09-08 13:34:56 · 31 阅读 · 0 评论 -
10、语音技术新突破:APNet2 与 WBIG 助力语音合成与验证
本文介绍了语音技术领域的两项新突破:APNet2 语音编码器和基于类内与类间样本插值的监督度量学习方法(WBIG)。APNet2通过引入ConvNeXt v2骨干网络、MRD判别器和Hinge GAN损失,显著提升了语音合成的质量与效率;WBIG则通过WCIG和BCIG生成高质量合成负样本,结合监督对比损失优化说话人验证性能,在CNCeleb和VoxCeleb数据集上实现了超过9%的EER相对提升。两种方法在语音助手、安防、金融等领域具有广泛应用前景,并为未来多模态融合、个性化合成及跨语言验证等研究方向提供原创 2025-09-07 16:01:54 · 24 阅读 · 0 评论 -
9、探索APNet2:高效语音合成的新突破
本文介绍了APNet2,一种高效的全帧级神经声码器,通过并行预测幅度谱和相位谱实现高质量语音合成。APNet2采用ConvNeXt v2作为骨干网络,并引入MRD和铰链GAN损失以提升训练效率与生成质量。实验表明,APNet2在保持与HiFi-GAN相当的语音质量的同时,显著提升了推理速度,尤其在GPU和CPU上的实时因子表现优异。消融研究验证了各关键组件的有效性,且在TTS任务中展现出良好的鲁棒性。原创 2025-09-06 11:36:53 · 45 阅读 · 0 评论 -
8、视听语音增强领域适应研究及APNet2神经声码器解析
本文探讨了视听语音增强中的领域适应方法与APNet2神经声码器的技术进展。研究显示,MMMP-DA方法在匹配与不匹配场景下均能有效提升模型性能,显著增强泛化能力,并在AVSE挑战2023中展现出优越的客观指标表现。同时,APNet2声码器通过采用ConvNeXt v2骨干网络、优化相位损失函数及引入多周期与多分辨率判别器,在保持高质量语音合成的同时大幅提升了推理效率,为TTS等应用提供了高效且高质量的解决方案。原创 2025-09-05 11:02:54 · 34 阅读 · 0 评论 -
7、视听语音增强的领域自适应研究
本文研究了视听语音增强(AVSE)中的领域自适应问题,针对训练与测试环境不匹配导致的性能下降,提出了一种多模型混合伪标签领域自适应方法(MMMP-DA)。通过联合多个模型生成伪标签并构建模拟数据集进行微调,显著提升了模型在未知声学环境下的泛化能力。结合MEASE、MTMEASE和PLMEASE等先进模型及多模型融合策略,在2023 AVSE挑战赛赛道1中取得了PESQ 1.77、STOI 71.23%、SiSDR 7.68的优异成绩,排名第二。实验验证了所提方法在不同噪声环境下的有效性与鲁棒性,为未来AVS原创 2025-09-04 14:25:12 · 106 阅读 · 0 评论 -
6、联合时域和频域渐进学习用于语音增强与识别
本文提出了一种联合时域和频域渐进学习的语音增强与识别方法TFDPL,通过渐进频域掩蔽模块和渐进混合域模块分别提取频域和时域特征,并设计融合模块结合两者优势。采用多目标损失函数进行端到端训练,实验表明该方法在CHiME-4真实场景下显著提升了ASR性能和语音感知质量。相比基线模型,TFDPL在不同声学模型上实现了最高达43.83%的词错误率相对降低,同时在PESQ和STOI指标上取得最优表现,验证了时频域信息互补性和渐进中间目标的有效性。原创 2025-09-03 16:07:42 · 40 阅读 · 0 评论 -
5、轻量级音乐与语音分离模型的创新探索
本文介绍了两种音频处理领域的创新模型:轻量级音乐源分离网络G-MSS和联合时域与频域的渐进学习方法TFDPL。G-MSS通过引入图卷积网络,在参数量仅1.7M的情况下,在MUSDB18数据集上实现了优异的SDR、SAR和SIR性能,尤其在人声和其他音源分离上表现突出。TFDPL则采用两阶段渐进式学习策略,结合频域掩码与混合域增强,有效减少语音失真,显著提升ASR性能,在CHiME-4测试集中实现最高达43.83%的WER相对降低,并在PESQ和STOI指标上优于传统方法。两种模型分别在音乐分离与语音增强识别原创 2025-09-02 16:21:01 · 34 阅读 · 0 评论 -
4、基于图卷积网络的轻量级音乐源分离模型
本文提出了一种基于图卷积网络的轻量级音乐源分离模型(G-MSS),结合双路径变压器骨干与GCN注意力模块,在减少参数量的同时保持了良好的分离性能。通过引入时域和频域联合L1损失,并设计多解码器结构,提升了对人声、贝斯、鼓和其他伴奏的分离效果。在MUSDB18数据集上的实验表明,该模型在SDR、SAR和SIR等指标上表现优异,且具备良好的可解释性与实际应用潜力。原创 2025-09-01 16:29:35 · 30 阅读 · 0 评论 -
3、语音半端到端嵌套命名实体识别研究
本文提出了一种用于中文语音嵌套命名实体识别的半端到端方法,结合EHA-ASR和SpanNER模型。EHA-ASR通过引入命名实体头部的特殊标注,减少ASR转录中的歧义并降低标注复杂度;SpanNER则仅对以预测头部开始的span进行实体分类,提升效率与准确性。在CNERTA数据集上的实验表明,该方法在F1分数上优于传统的管道和端到端方法,尤其在精确率方面表现突出。同时,分析显示人名(PER)识别仍面临较大挑战,主要受中文同音词影响。研究为多模态、嵌套NER任务提供了有效解决方案。原创 2025-08-31 14:27:29 · 30 阅读 · 0 评论 -
2、超低复杂度残回声与噪声抑制及半端到端嵌套命名实体识别技术
本文介绍了超低复杂度残回声与噪声抑制及半端到端嵌套命名实体识别技术。在语音处理方面,提出的RES网络具有极低实时因子,在AECMOS、ERLE和fwsegSNR等指标上优于基线模型,适用于多种设备上的高效回声与噪声抑制。在信息提取方面,半端到端NER方法通过新颖的NE头标注策略和SpanNER架构,有效解决了传统方法的级联误差与标注歧义问题,在CNERTA数据集上表现出更高的F1得分。两种技术结合可广泛应用于视频通话、智能客服、语音搜索等场景,并具备向多语言、跨模态融合发展的潜力。原创 2025-08-30 09:40:59 · 23 阅读 · 0 评论 -
1、18th NCMMSC 2023会议成果及超低复杂度回声与噪声抑制研究
第18届全国人机语音通信学术会议(NCMMSC 2023)在苏州成功举办,展示了语音技术领域的多项前沿研究成果。会议聚焦智能语音与语言处理,收录了31篇高质量论文,涵盖语音识别、合成、增强、说话人验证、大语言模型等多个方向。其中,超低复杂度回声与噪声抑制研究提出基于RNN的轻量级模型,在显著降低计算复杂度的同时保持优异性能,适用于低资源系统。会议促进了学术交流、技术创新与产业合作,推动语音技术向低复杂度、多模态融合和大语言模型应用等方向发展。原创 2025-08-29 14:38:35 · 74 阅读 · 0 评论
分享