ICASSP 2022:某中心50余篇论文技术指南
某中心研究人员在本年度声学、语音与信号处理国际会议上发表了50多篇论文。其中多数聚焦于自动语音识别及相关主题,如关键词识别和说话人识别,但也涉及计算机视觉和联邦学习等更广泛的领域。
声学事件检测
- 联邦自监督声学事件分类学习:Meng Feng等人提出结合联邦学习和自监督学习的方法
- 基于树状结构本体的改进声学事件分类表示学习:Arman Zharmagambetov等人利用本体论提升分类性能
- WikiTAG:基于维基百科的知识嵌入改进声学事件分类:Qin Zhang等人融合知识图谱增强模型表现
自动语音识别
- 基于似然比的端到端模型领域自适应方法:Chhavi Choudhury等人提出领域适应新方法
- 贪心采样策略无损端到端语音识别:Jahn Heymann等人证明贪心策略的有效性
- 缓存网络:利用通用语音优化ASR:Anastasios Alexandridis等人提出共享语音特征方法
在"LATTENTION: ASR重评分中的网格注意力机制"中,研究人员展示了将注意力机制应用于编码多个ASR假设的网格能提升识别性能。
计算机视觉
- ASD-transformer:使用自注意力和多模态transformer的高效主动说话人检测
- 动态剪枝SegFormer实现高效语义分割
- 具有时间感知的对比学习增强音频-视觉表示生成
联邦学习
- 联邦学习挑战与机遇展望:Jie Ding等人分析联邦学习现实应用问题
- 实际联邦学习经验总结:Christophe Dupuy分享实际部署经验
其他技术领域
- 信息检索:基于对比知识图谱注意力的食谱推荐
- 机器翻译:用于自动配音的等距神经机器翻译
- 自然语言理解:自动发现新领域和意图的ADVIN系统
- 个性化:增量用户嵌入建模实现个性化文本分类
信号处理与语音合成
- 深度自适应声学回声消除:结合深度学习和传统方法
- 基于风格转换的上混音技术:使用变分自编码器分离空间图像和音乐内容
- 神经语音合成效率优化:改进LPCNET的效率表现
时间序列预测
- 基于回溯测试自助法和自适应残差选择的鲁棒非参数分布预测
这些研究成果涵盖了语音信号处理的多个前沿方向,展示了在自动语音识别、多模态学习、联邦学习等领域的技术创新和实际应用突破。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
2237

被折叠的 条评论
为什么被折叠?



