FunASR项目中情绪识别模型显存溢出问题分析与解决方案-优快云博客

FunASR项目中情绪识别模型显存溢出问题分析与解决方案

在使用FunASR项目中的emotion2vec_base_finetuned模型进行语音情绪识别时，用户遇到了CUDA显存溢出(OOM)的问题。该问题在批量处理语音文件或处理较长音频时尤为明显，导致模型无法正常运行。

当处理单个短音频文件(150秒以下)时，模型运行正常。但在以下两种情况下会出现显存溢出：

错误信息显示模型尝试分配高达23.02GiB的显存，而实际GPU显存容量仅为15.89GiB。这表明模型在处理音频时存在显存管理问题。

emotion2vec模型在处理音频时，显存需求会随着以下因素增长：

用户尝试了两种常见的显存优化方法：

设置PyTorch的显存分配策略：os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:128"
手动清空显存缓存：torch.cuda.empty_cache()

这些方法虽然一定程度上缓解了问题(从处理3条语音扩展到十几条)，但未能从根本上解决问题。

对于长音频文件，建议先进行语音活动检测(VAD)分割：

这种方法可以显著降低单次处理的显存需求。

对于实时或准实时应用场景：

进一步优化PyTorch的显存管理：

# 更激进的显存分配策略
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:32"

对于必须处理长音频的场景：

FunASR的情绪识别模型在处理长音频或批量音频时确实存在较高的显存需求。通过合理的音频预处理、流式处理和显存优化配置，可以有效地解决这一问题。开发者应根据实际应用场景选择最适合的解决方案组合，在模型效果和资源消耗之间取得平衡。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考