ice55
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
39、音频处理技术:部分假音频检测与定制关键词识别
本文介绍了音频处理领域的两项重要技术:部分假音频检测和基于合成语音的定制关键词识别。部分假音频检测系统通过改进的网络结构、时间对比损失(TCLoss)以及后处理方法,实现了对伪造音频的精准识别和边界判断敏感性提升。而定制关键词识别则结合文本到语音(TTS)技术和连续积分-触发(CIF)机制,解决了文本与音频模态之间的对齐问题,显著提高了关键词识别的准确率。实验结果验证了这两种方法的有效性,并展望了未来可能的研究方向。原创 2025-09-15 10:30:00 · 46 阅读 · 0 评论 -
38、中国英语学习者对英语语调的感知及部分伪造音频检测系统研究
本研究探讨了中国英语学习者对英语语调的感知特点,分析了重音模式、英语水平和视觉线索对语调感知的影响,并设计了一套部分伪造音频检测系统。实验结果表明,扬抑格重音在疑问句感知中更具优势,非英语专业学生在陈述句感知中表现更佳,而视觉线索对语调感知没有显著影响。针对伪造音频检测,研究提出了一种基于RawNet的改进系统,结合预训练模型、数据增强和新损失函数,在操作区域定位方面取得了良好效果。研究为英语教学和语音信息安全提供了有益参考。原创 2025-09-14 12:46:45 · 38 阅读 · 0 评论 -
37、深入探究语音处理与语言感知:DKU - MSXF 系统及 EFL 学习者研究
本博客深入探讨了语音处理与语言感知领域的两项重要研究成果。一方面,DKU-MSXF说话人分离系统结合了聚类和TSVAD方法,在多个数据集上展现了卓越的性能,通过多模型融合取得了4.30%的最低DER。另一方面,针对中国EFL学习者对英语陈述句和疑问句语调感知的研究揭示了重音模式和英语水平对语调感知的影响,为英语教学提供了新思路。研究还展望了未来在模型优化和语言教学应用中的发展方向。原创 2025-09-13 10:13:25 · 45 阅读 · 0 评论 -
36、语音吸引力的韵律因素及说话人分割系统研究
本文探讨了语音吸引力的韵律因素及说话人分割系统的研究进展。通过分析ChatGPT语音特点、AI语音功率谱比较,以及基频、语调变化和时长对语音吸引力的影响,揭示了提升AI语音吸引力的关键因素。同时,介绍了在VoxCeleb Speaker Recognition Challenge中表现优异的DKU-MSXF说话人分割系统,展示了其多模型融合和后处理优化策略,并展望了语音吸引力研究和说话人分割技术的未来发展方向。原创 2025-09-12 16:04:15 · 39 阅读 · 0 评论 -
35、智能语音助手与语音吸引力研究
本博文围绕智能语音助手与语音吸引力展开,重点介绍了CAM - GUI语音助手的性能评估与研究优化,以及AI合成语音吸引力的影响因素。通过对比分析和实验研究,探讨了语音助手在易用性、功能性、语音相关性能等方面的表现,并深入研究了韵律声学参数对ChatGPT语音吸引力的影响。同时,文章展望了未来技术的发展方向与应用前景,旨在提升智能语音助手的整体可用性与用户接受度。原创 2025-09-11 13:21:51 · 49 阅读 · 0 评论 -
34、CAM - GUI:移动图形用户界面上的对话式助手
本文介绍了CAM-GUI,一种基于移动图形用户界面的对话式助手系统。该系统通过闭环设计,结合语音交互与屏幕内容理解,模拟人类用户与设备进行操作,从而实现无需依赖API的任务执行。文章详细描述了系统架构、数据集构建、实验演示及用户研究结果,验证了CAM-GUI在任务完成准确率、易用性及兼容性方面的良好性能,并探讨了其未来优化方向。原创 2025-09-10 11:31:18 · 58 阅读 · 0 评论 -
33、心音检测预训练模型研究
本研究系统评估了多种音频和语音预训练模型在心音检测中的性能,包括PANNs、SSAST、BEATs、HuBERT和WavLM。基于PhysioNet/CinC 2016数据库和CirCor DigiScope数据集,研究从高质量心音检测、抗噪性能分析以及真实临床场景下的鲁棒性三个方面对模型进行了全面评估。实验结果表明,BEATs模型在多数场景下表现最佳,PANN - V1在微调后具有较高的准确率和F1分数,而PANN - V2展现出较强的抗噪能力。此外,研究还发现语音预训练模型在心音检测任务中的表现相对欠佳原创 2025-09-09 09:48:39 · 101 阅读 · 0 评论 -
32、零样本歌唱语音转换与预训练模型在心音检测中的应用研究
本博文围绕两个研究方向展开:一是零样本歌唱语音转换方法的研究与实验,通过引入基于Glow的音色空间建模和激励信号控制策略,显著提升了转换语音的自然度与相似度;二是比较多种预训练音频和语音模型(如PANNs、BEATs、HuBERT、WavLM等)在心音检测任务中的性能表现,探讨了其在临床环境下的应用潜力。研究为歌唱语音转换技术的优化和心音检测中预训练模型的选用提供了有价值的参考。原创 2025-09-08 14:26:58 · 63 阅读 · 0 评论 -
31、零样本歌唱语音转换:基于音色空间建模与激励信号控制
本文提出了一种基于音色空间建模与激励信号控制的零样本歌唱语音转换方法。通过改进VITS框架,引入基于Glow的音色嵌入建模、结合激励信号的解码器设计、双解码器高保真波形生成以及基于调移的音高映射策略,有效解决了现有SVC方法在零样本条件下的音高不稳定、转换质量差以及训练不收敛等问题。实验结果表明,该方法在内部数据集上显著提升了转换语音的自然度、相似度和稳定性,为歌唱语音转换技术的未来发展提供了新的思路。原创 2025-09-07 09:11:07 · 36 阅读 · 0 评论 -
30、音频-视觉说话人分割中的预训练语音模型探索
本文探讨了在音频-视觉说话人分割(AVSD)任务中使用监督和自监督预训练语音模型的有效性。通过引入如ResNet、ECAPA-TDNN、HuBERT和WavLM等预训练模型作为音频和说话人编码器,并结合多种解码器(如Transformer、Conformer和交叉注意力机制)进行多模态融合,有效提升了说话人分割的性能。实验结果表明,联合训练策略和合适的解码器设计显著降低了分割错误率(DER),为复杂场景下的多模态说话人分割提供了新的思路和改进方向。原创 2025-09-06 15:50:09 · 53 阅读 · 0 评论 -
29、语音情感识别与增强技术的创新探索
本文探讨了语音情感识别和语音增强领域的创新技术。针对语音情感识别,提出了ADGCN模型,通过引入残差机制,在情感识别准确率和F1分数上显著提升;针对语音增强,提出了一种新的自监督迭代噪声目标方法,减少了对干净语音的依赖,性能接近传统监督方法。研究为语音处理技术提供了新的解决方案,并展望了其在智能客服、心理健康监测、语音通信等领域的应用前景。原创 2025-09-05 11:49:56 · 34 阅读 · 0 评论 -
28、提升语音质量与情感识别能力的创新方法
本文探讨了语音处理领域的两项关键技术:一是基于时间包络特征的辅助损失函数,用于提升语音的感知质量和可懂度,并在训练效率方面表现出优势;二是自适应深度图卷积网络(ADGCN),通过引入自适应残差和动态局部残差机制,有效解决了对话语音情感识别中上下文建模和过平滑问题。研究还涵盖了方法对比、实验分析、应用场景及未来发展方向,为语音质量提升和情感识别提供了创新思路和技术支持。原创 2025-09-04 14:07:20 · 43 阅读 · 0 评论 -
27、基于子带时间包络特征提升语音感知质量和可懂度
本文提出了一种基于子带时间包络特征的辅助损失函数,用于提升语音增强模型的感知质量和可懂度。通过引入子带加权机制和多通道注意力模块(MulCA),设计了 ENVLoss,并结合已有的 PAAPLoss 构建联合损失函数。实验表明,该方法在多个客观和主观评估指标上均取得了显著提升,特别是在语音可懂度(STOI)和感知质量(DNSMOS、NORESQA)方面。研究还验证了该损失函数在不同语音增强模型(如 Demucs 和 FullSubNet)中的有效性与鲁棒性。原创 2025-09-03 09:43:17 · 41 阅读 · 0 评论 -
26、基于 Demucs 网络结构的丢包隐藏方法
本文提出了一种基于 Demucs 网络结构的时域丢包隐藏(PLC)方法,用于恢复语音通信中因网络问题丢失的数据包。文章详细介绍了传统 PLC 方法的局限性,以及深度学习在 PLC 中的应用。通过构建因果模型并结合 U-Net 架构和混合损失函数,该方法在不同丢包率下均表现出优越的性能。实验结果表明,与现有方法相比,基于 Demucs 的方法在 PESQ 和 STOI 指标上取得了最佳成绩,为提升语音通信质量提供了有效支持。未来的研究方向包括模型复杂度优化、多模态融合和自适应调整等。原创 2025-09-02 15:18:12 · 27 阅读 · 0 评论 -
25、用于异常声音检测的跨域特征融合多分支网络
本文提出了一种用于自监督异常声音检测(ASD)任务的跨域特征融合多分支网络(MBN-CFF)。该方法通过引入跨域特征融合(CFF)块和注意力沙漏(AS)块,有效整合时域和频域特征,并利用多分支预测(MBP)结构提升检测性能。实验表明,MBN-CFF在多个数据集上均取得了优越的检测效果,证明了其关键组件的有效性和整体架构的优势。原创 2025-09-01 12:51:26 · 52 阅读 · 0 评论 -
24、Accent-VITS与多分支网络在语音处理中的应用研究
本文介绍了语音处理领域的两种创新技术:Accent-VITS和MBN-CFF。Accent-VITS是一种基于分层CVAE结构的端到端口音转换文本转语音模型,能够实现高质量的语音合成,支持多种中文口音,具有广泛的应用前景,如语音导航、有声读物和语言学习。MBN-CFF是一种用于异常声音检测的多分支网络,结合了跨域特征融合和注意力沙漏模块,能够有效识别未知的异常声音,在工业设备监测和音频监控领域表现优异。文章还探讨了这两种技术的核心优势、实际应用场景及未来发展方向。原创 2025-08-31 09:37:14 · 29 阅读 · 0 评论 -
23、基于神经网络声码器的单声道语音增强与口音迁移模型研究
本博客研究了一种基于神经网络声码器的单声道语音增强框架和一种端到端的口音迁移模型Accent-VITS。语音增强框架结合卷积网络和生成对抗网络,在多种噪声环境下表现出色,提升了语音质量和可懂度。而Accent-VITS通过分层条件变分自编码器实现了说话者音色与口音的有效分离,推动了口音迁移的自然度和准确性。博客还分析了模型的优势、应用场景及未来发展方向,为语音处理技术的进步提供了理论基础和实践指导。原创 2025-08-30 10:57:51 · 58 阅读 · 0 评论 -
22、基于神经声码器的单声道语音增强框架
本文提出了一种基于神经声码器的单声道语音增强框架,通过结合去噪网络与高保真对抗网络声码器HiFi-GAN,并进行联合训练,显著提高了语音增强效果。框架利用梅尔频谱作为输入,采用自编码器进行幅度谱去噪,并通过频谱重缩放优化声码器输入,最终合成高质量的增强语音。实验结果表明,该方法在多个评估指标和不同噪声环境下均优于传统语音增强方法,展现出良好的性能和应用潜力。原创 2025-08-29 10:11:12 · 55 阅读 · 0 评论 -
21、实时汽车发动机声音模拟:基于深度神经网络的混合方法
本文提出了一种基于深度神经网络的混合方法,用于实时模拟汽车发动机声音。该方法结合了样本基方法和程序方法的优势,利用GLOLA算法进行信号相位优化,并通过深度神经网络预测发动机脉冲频率及其倍数处的幅度值,从而生成更加准确且具有真实感的发动机声音。实验表明,该方法能够在低计算资源消耗下实现高效的实时模拟,具有广泛的应用前景。原创 2025-08-28 15:54:24 · 39 阅读 · 0 评论 -
20、语音去混响与汽车发动机声音模拟技术研究
本文探讨了语音去混响和汽车发动机声音模拟两个领域的关键技术及研究成果。在语音去混响方面,重点研究了任务自适应GAN模型,通过引入增强MFCC、BNF和无监督特征,显著降低了语音识别的字错误率(WER)。在汽车发动机声音模拟方面,提出了一种结合基于样本和基于过程的混合方法,通过GLOLA算法有效消除了帧间咔嗒声,提高了合成声音的真实性和流畅性。实验结果验证了这两种方法的有效性,并为未来研究提供了优化方向。原创 2025-08-27 11:16:08 · 90 阅读 · 0 评论 -
19、基于任务自适应生成对抗网络的语音去混响技术助力鲁棒语音识别
本文提出了一种基于任务自适应生成对抗网络(任务自适应GAN)的语音去混响技术,旨在解决传统去混响方法与语音识别目标不匹配的问题。通过将声学模型和生成模型融入生成器,并使用预训练声学模型作为适配器,任务自适应GAN能够生成更适合语音识别的特征。实验结果表明,该方法在REVERB测试数据集上显著降低了单词错误率,提升了语音识别的鲁棒性。原创 2025-08-26 11:44:59 · 88 阅读 · 0 评论 -
18、基于大语言模型递归交互的情感支持对话策略
本文介绍了一种基于大语言模型递归交互的情感支持对话策略框架,结合领域特定大语言模型和基础大语言模型,通过递归结构动态调整对话策略,以提升情感支持任务的效果。框架分为两个阶段,利用策略提示和角色交换优化响应生成和策略调整。实验结果表明,该框架在自动评估和手动评估中均表现出优于现有模型的效果,为未来情感支持对话系统的发展提供了新的思路。原创 2025-08-25 15:02:21 · 38 阅读 · 0 评论 -
17、儿童语音发展与情感支持对话系统研究
本文探讨了儿童语音发展中连续附加声调(SuABT)的模式及其与成人指向语音(CDS)的对比特征,揭示了儿童在音高范围、时长等方面的发展轨迹及其与语用功能编码解码的关系。同时,文章分析了大型语言模型在情感支持对话中的局限性,并介绍了一种基于支持性心理治疗的对话系统(STDS),通过整合特定领域和基础大语言模型提升情感支持的有效性。最后,文章展望了未来研究方向,包括拓展方言环境影响、家庭互动因素分析以及系统个性化改进等,强调了这两项研究在语言发展理解与人工智能应用中的重要意义。原创 2025-08-24 12:15:40 · 52 阅读 · 0 评论 -
16、端到端流式可定制关键词检测与普通话学龄前儿童连续附加边界声调生成研究
本博客探讨了端到端流式可定制关键词检测技术的性能与影响因素,以及普通话学龄前儿童连续附加边界声调的生成发展规律。关键词部分分析了零样本性能、负样本策略、多标签机制和模型效率;语言研究部分通过实验揭示了儿童在音高和时长方面的语音发展模式,并总结了相关技术与语言研究的重要成果与意义。原创 2025-08-23 09:00:25 · 27 阅读 · 0 评论 -
15、端到端流式可定制关键词识别:基于文本自适应神经搜索
本文提出了一种端到端流式可定制关键词识别系统,基于文本自适应神经搜索技术,能够在连续语音流中实时检测任意用户定义的关键词。该系统通过显著降低模型复杂度和检测延迟,引入多标签触发机制以提高识别准确性,并实现了与声学模型解耦的神经搜索过程,便于扩展到不同的声学模型。实验结果表明,该方法在LibriKWS和Hey-Snips数据集上均优于现有基线模型,展现出良好的性能和鲁棒性,适用于智能语音助手、智能家居等实时语音交互场景。原创 2025-08-22 10:49:34 · 25 阅读 · 0 评论 -
14、基于扩散模型的舞蹈生成快速采样方法
本博文介绍了一种基于扩散模型的舞蹈生成快速采样方法。通过将扩散模型与重采样技术相结合,并改进DPM-Solver++算法,实现了舞蹈动作生成速度的显著提升,同时保证了生成质量。该方法利用连续时间步骤转换和长序列生成策略,有效解决了传统扩散模型生成过程耗时且无法直接生成长序列的问题。实验结果表明,与DDPM和DDIM相比,提出的方法在集内和集外音乐条件下均表现出更快的生成速度,且生成的舞蹈动作在物理合理性和节拍对齐方面具有良好的性能。该方法在舞蹈创作、虚拟现实及游戏领域具有广泛的应用前景。原创 2025-08-21 15:35:35 · 27 阅读 · 0 评论 -
13、扬声器模拟与数据增强及舞蹈生成模型快速采样方法
本博客探讨了扬声器模拟与数据增强方法以及舞蹈生成模型的快速采样技术。扬声器模拟通过几何设计、谐波响应分析和声学模拟等步骤生成增强数据,用于训练MASD模型,有效提升了机器异常声音检测的性能。在舞蹈生成领域,采用DPM-Solver++算法改进扩散模型的采样方法,结合长序列生成技术,显著提高了生成速度并保持了动作质量。这些方法在工业监测和艺术创作等领域具有重要的应用价值,并为未来的技术发展提供了新的方向。原创 2025-08-20 14:34:53 · 79 阅读 · 0 评论 -
12、联合语音与噪声估计及有限元分析数据增强在声学领域的应用
本文探讨了联合语音与噪声估计网络以及有限元分析在声学领域的应用。联合语音与噪声估计网络通过信噪比自适应目标学习策略,有效平衡了噪声降低与语音失真之间的关系,显著提升了语音识别的准确性。同时,有限元分析为机器异常声音检测提供了一种物理真实性高、多领域适用的数据增强方法。文章还讨论了这两种技术的优势、挑战及未来发展方向,并提出了技术融合的可能性,以构建更全面的声学处理系统。原创 2025-08-19 16:54:35 · 49 阅读 · 0 评论 -
11、基于WBIG监督度量学习的说话人验证及基于SNR自适应目标学习的联合语音与噪声估计
本文围绕语音处理中的两个重要方向——说话人验证和语音增强展开研究。针对说话人验证任务,提出了基于WBIG的监督度量学习方法,在CNCeleb和Voxceleb数据集上取得了显著的性能提升。对于语音增强任务,设计了SNR自适应目标学习策略,并将其扩展到联合语音与噪声估计网络,有效解决了语音增强与后端ASR任务之间的不匹配问题,显著降低了词错误率。实验结果验证了所提方法的有效性,并为未来在语音处理相关领域的进一步研究提供了参考。原创 2025-08-18 11:57:11 · 42 阅读 · 0 评论 -
10、语音技术新突破:APNet2 与 WBIG 助力语音合成与说话人验证
本文介绍了语音技术领域的两项重要进展:APNet2 语音编码器和 WBIG 方法。APNet2 在语音合成中实现了高质量、高效的波形生成,其核心改进包括采用 ConvNeXt v2 作为骨干网络、引入 MRD 到基于 GAN 的损失函数以及采用铰链 GAN 形式。WBIG 方法则在说话人验证中表现出色,通过类内和类间点插值生成机制,结合监督对比损失,显著提升了模型的判别能力。实验结果表明,WBIG 在 CNCeleb 和 VoxCeleb 数据集上的等错误率(EER)相对性能分别提高了 9.74% 和 9.原创 2025-08-17 16:36:38 · 24 阅读 · 0 评论 -
9、APNet2:高效语音波形生成的新突破
本文介绍了APNet2,一种高效的神经声码器,用于语音波形生成。APNet2通过并行预测语音幅度谱和相位谱,并利用ISTFT重建波形。其核心创新包括采用ConvNeXt v2作为骨干网络、多分辨率判别器(MRD)以及铰链GAN损失函数,从而在推理速度和合成语音质量之间实现了良好的平衡。与HiFi-GAN、iSTFTNet、Vocos和APNet等模型相比,APNet2展现出更强的性能,适用于文本转语音(TTS)、语音通信、虚拟现实和游戏等多个实际应用场景。原创 2025-08-16 14:52:07 · 35 阅读 · 0 评论 -
8、视听语音增强与神经声码器技术研究
本文研究了视听语音增强模型和神经声码器技术。在视听语音增强方面,通过MMMP-DA域适应方法显著提升了MEASE、MTMEASE和PLMEASE等模型的性能,并在AVSE挑战2023中取得了优异的客观评估结果。同时,提出了APNet2声码器,采用ConvNeXt v2作为骨干网络,优化了相位预测和损失函数设计,显著提升了合成语音质量和推理效率。实验结果表明,APNet2在合成语音质量上与HiFi-GAN和iSTFTNet相当,但推理速度更快,为语音处理领域带来了新的进展。原创 2025-08-15 14:46:54 · 28 阅读 · 0 评论 -
7、视听语音增强的领域自适应研究
本文研究了视听语音增强(AVSE)中的领域自适应问题,提出了一种多模型混合伪标签领域自适应方法(MMMP - DA)。通过利用多模态信息(音频和视频)以及深度学习技术,该方法有效提升了语音增强模型在未知声学环境中的泛化能力。实验表明,结合MMMP - DA方法和多模型融合策略,系统在多个客观指标(PESQ、STOI和SISDR)上均取得了显著提升,并在AVSE挑战2023评估集中排名第二。原创 2025-08-14 10:54:56 · 29 阅读 · 0 评论 -
6、时域和频域联合渐进学习在语音增强与识别中的应用
本文提出了一种基于时域和频域联合渐进学习的语音增强与识别方法(TFDPL)。通过设计融合模块,结合渐进频域掩蔽模块和渐进混合域模块的输出,同时引入多目标损失函数进行联合优化,实现了语音增强和识别性能的显著提升。实验结果表明,TFDPL 在 CHiME-4 真实测试集上相较于基线模型取得了显著的性能改进,在自动语音识别(ASR)和感知质量(PESQ 和 STOI)指标上均达到了最优效果。该方法为复杂噪声环境下的语音处理任务提供了有效的解决方案。原创 2025-08-13 10:57:57 · 38 阅读 · 0 评论 -
5、轻量级音乐源分离与单通道语音增强:创新模型与方法
本文介绍了一种轻量级的音乐源分离模型G-MSS和一种用于单通道语音增强的联合时域和频域渐进学习方法(TFDPL)。G-MSS结合了图卷积网络(GCN),在保持低参数数量的同时实现了优异的分离性能。TFDPL则通过综合利用时域和频域信息,采用渐进学习策略和创新的融合模块,在自动语音识别(ASR)和语音感知指标上表现出色,显著提升了语音质量和识别鲁棒性。这两种方法分别在音乐处理和语音识别领域具有广泛的应用前景。原创 2025-08-12 12:11:09 · 66 阅读 · 0 评论 -
4、基于图卷积网络的轻量级音乐源分离模型
本文提出了一种基于图卷积网络(GCN)的轻量级音乐源分离模型G-MSS,该模型结合了双路径变压器骨干网络和GCN注意力模块,同时利用时域与频域的L1损失以提升分离性能。通过在MUSDB18数据集上的实验验证,G-MSS在保持较小参数规模的同时,实现了优于或与其他模型相当的分离效果。消融实验表明,GCN注意力模块、多解码器结构以及频域损失均对模型性能有显著贡献。该模型在音乐制作、音乐教育和语音处理等领域具有广泛的应用前景。原创 2025-08-11 10:54:46 · 43 阅读 · 0 评论 -
3、语音半端到端嵌套命名实体识别技术解析
本文解析了语音半端到端嵌套命名实体识别技术,基于CNERTA中文多模态数据集,对比了流水线、端到端和半端到端方法在嵌套NER任务中的表现。重点介绍了EHA-ASR和SpanNER模型的结合应用,分析了命名实体头部标注的有效性,并探讨了半端到端方法在精确率和召回率上的优势与挑战。最后展望了未来改进方向,如引入更多上下文信息或优化模型结构以提升性能。原创 2025-08-10 12:18:25 · 42 阅读 · 0 评论 -
2、语音处理技术:超低复杂度回声与噪声抑制及半端到端嵌套命名实体识别
本文介绍了语音处理领域的两项关键技术:超低复杂度回声与噪声抑制(RES)技术和半端到端嵌套命名实体识别方法。RES技术通过优化RNN拓扑结构,在保证低复杂度的同时显著提升了AECMOS、ERLE和STOI等关键指标,适用于语音通信和识别系统。半端到端方法通过新颖的实体头注释机制和EHA-ASR与SpanNER的协同设计,有效解决了传统两步管道与端到端方法在嵌套实体识别中的局限,实验表明其在F1分数上优于现有方法。两种技术在智能语音交互、智能家居、信息检索等领域具有广阔的应用前景。原创 2025-08-09 14:17:40 · 45 阅读 · 0 评论 -
1、第18届人机语音通信全国会议成果及超低复杂度回声与噪声抑制技术解析
本文介绍了第18届人机语音通信全国会议(NCMMSC 2023)的主要成果,并重点解析了超低复杂度回声与噪声抑制技术。会议汇聚了国内外语音技术领域的专家学者,展示了语音处理领域的最新研究进展。提出的基于RNN的RES模型在显著降低复杂度的同时,实现了与高复杂度模型相当的性能,为低资源设备上的语音处理提供了新思路。原创 2025-08-08 10:51:40 · 98 阅读 · 0 评论
分享