ICASSP 2022语音信号处理技术全景概览

ICASSP 2022:某中心50余篇论文技术指南

某中心研究人员在本年度声学、语音与信号处理国际会议上发表了50多篇论文。其中多数聚焦于自动语音识别及相关主题,如关键词识别和说话人识别,但也涉及计算机视觉和联邦学习等更广泛的领域。

声学事件检测

  • 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习和自监督学习的方法
  • 基于树状结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人利用本体论提升分类性能
  • WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人融合知识图谱增强模型表现

自动语音识别

  • 基于似然比的端到端模型领域自适应方法:Chhavi Choudhury等人提出领域适应新方法
  • 贪心采样策略无损端到端语音识别:Jahn Heymann等人证明贪心策略的有效性
  • 缓存网络:利用通用语音优化ASR:Anastasios Alexandridis等人提出共享语音特征方法

在"LATTENTION: ASR重评分中的网格注意力机制"中,研究人员展示了将注意力机制应用于编码多个ASR假设的网格能提升识别性能。

计算机视觉

  • ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测
  • 动态剪枝SegFormer实现高效语义分割
  • 具有时间感知的对比学习增强音频-视觉表示生成

联邦学习

  • 联邦学习挑战与机遇展望:Jie Ding等人分析联邦学习现实应用问题
  • 实际联邦学习经验总结:Christophe Dupuy分享实际部署经验

其他技术领域

  • 信息检索:基于对比知识图谱注意力的食谱推荐
  • 机器翻译:用于自动配音的等距神经机器翻译
  • 自然语言理解:自动发现新领域和意图的ADVIN系统
  • 个性化:增量用户嵌入建模实现个性化文本分类

信号处理与语音合成

  • 深度自适应声学回声消除:结合深度学习和传统方法
  • 基于风格转换的上混音技术:使用变分自编码器分离空间图像和音乐内容
  • 神经语音合成效率优化:改进LPCNET的效率表现

时间序列预测

  • 基于回溯测试自助法和自适应残差选择的鲁棒非参数分布预测

这些研究成果涵盖了语音信号处理的多个前沿方向,展示了在自动语音识别、多模态学习、联邦学习等领域的技术创新和实际应用突破。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值