会议背景
第49届电气与电子工程师学会国际声学、语音与信号处理会议(ICASSP 2024)于2024年4月14日至19日在韩国首尔举行[citation:1]。该会议是全球信号处理及其应用领域规模最大、最全面的技术会议之一。某中心作为会议的青铜赞助商参与其中,并组织了“可信语音处理”研讨会[citation:1]。
技术论文概览
某中心在本次会议上发表了超过20篇学术论文,研究重点主要集中在自动语音识别,同时也广泛涉及语音增强、口语理解、唤醒词识别、对话、副语言学、音高估计及负责任的人工智能等多个前沿领域[citation:1]。
以下是按技术领域分类的论文列表:
自动语音识别
- 《最大间隔传感器损失:使用大间隔学习策略改进序列判别训练》:提出了一种新颖的序列判别训练准则,用于改进传感器模型[citation:1]。
- 《Promptformer:用于自动语音识别的提示型Conformer传感器》[citation:1]。
- 《会话语音助手的显著自动语音识别错误检测》[citation:1]。
- 《任务导向对话作为自监督自动语音识别的催化剂》[citation:1]。
语音增强
- 《NoLACE:通过自适应时域整形改进低复杂度语音编解码器增强》[citation:1]。
- 《基于双路径结构的具有空间线索保存能力的实时立体声语音增强》[citation:1]。
- 《使用改进的冷扩散进行可扩展且高效的语音增强:一种残差学习方法》[citation:1]。
口语理解
- 《S2E:构建从声学信号到实体解析的端到端解决方案》:研究直接从音频中将查询中的实体指称解析为文本目录中的可操作实体的方法[citation:1]。
- 《通过词混淆网络的上下文学习实现对自动语音识别鲁棒的口语理解》[citation:1]。
音高估计
- 《具有极低复杂度的噪声鲁棒数字信号处理辅助神经音高估计》:该研究展示了一种混合估计器,它结合了小型深度神经网络和传统的基于数字信号处理的特征,能够匹配或超越纯神经网络模型的性能,同时保持了与传统数字信号处理算法相当的复杂度和算法延迟[citation:1][citation:2]。
对话系统
- 《基于声学与大语言模型融合的对话轮转与反馈预测》[citation:1]。
副语言学
- 《副语言学增强的对话大语言建模》[citation:1]。
计算机视觉
- 《图神经网络在二维妆容迁移中的肤色解纠缠》[citation:1]。
说话人识别
- 《用于解耦注册和运行时说话人识别模型的后训练嵌入对齐》[citation:1]。
唤醒词识别
- 《通过神经模型重编程对端到端自动语音识别进行唤醒词识别的热修复》[citation:1]。
- 《用于关键词检出的最大熵对抗性音频增强》[citation:1]。
- 《通过量化感知预训练和微调实现的设备端受限自监督关键词检出学习》[citation:1]。
音频事件检测
- 《音频事件检测中的交叉触发问题及其缓解》[citation:1]。
受话人检测
- 《长期社交互动上下文:第一人称受话人检测的关键》[citation:1]。
文本到语音
- 《Mapache:用于高级语音编辑与合成的掩码并行Transformer》[citation:1]。
负责任的人工智能
- 《利用置信度模型识别语音模型中具有挑战性的数据子组》[citation:1]。
总结
本次ICASSP 2024会议上展示的研究工作,体现了信号处理与人工智能交叉领域,特别是在语音技术方面的持续创新。这些研究不仅关注核心算法性能的提升,也致力于解决模型在实际部署中面临的复杂性、延迟和资源消耗等挑战[citation:1][citation:2]。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

被折叠的 条评论
为什么被折叠?



