SpringBoot集成语音识别模型FunASR

最新推荐文章于 2025-09-01 18:45:04 发布

原创

最新推荐文章于 2025-09-01 18:45:04 发布 · 1.5k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#spring boot #语音识别 #后端 #funasr

01 引言

应以为粉丝朋友要求，我们一起学习搭建了一个语言识别模型，并集成SpringBoot项目中。在搭建过程中遇到不少问题，总结一下分享给其他需要的朋友。

官网的给出的Java客户端稍微有点问题，并不能接受到大模型识别的反馈。网上的相关的技术博客也很少，这里帮大家把坑点填平，本文一片文章助你轻松拿下FunASR。

02 FunASR简介

FunASR是一个基础语音识别工具包，提供多种功能，包括语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程，支持预训练好的模型的推理与微调。更是通过CPU可以直接跑起来的大模型。

FunASR旨在通过语音识别的学术研究和工业应用之间架起一座桥梁。通过发布工业级语音识别模型的训练和微调，研究人员和开发人员可以更方便地进行语音识别模型的研究和生产，并推动语音识别生态的发展。让语音识别更有趣！

开源仓库地址：https://github.com/modelscope/FunASR

03 FunASR 部署

我们采用Docker技术直接部署，部署的官方指导文档：

https://github.com/modelscope/FunASR/blob/main/runtime/docs/SDK_advanced_guide_online_zh.md

Docker安装的本章不在赘述，之前的文章中已经介绍过安装过程。

3.1 拉取镜像并启动

我们这里使用的是cpu版本的模型：funasr-runtime-sdk-online-cpu-0.1.13。直接拉取镜像并启动：

#拉取镜像
sudo docker pull \
  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.13

# 创建保存模型的文件夹
mkdir -p ./funasr-runtime-resources/models

# 挂载启动镜像
sudo docker run -p 10096:10095 -it --privileged=true \
  -v $PWD/funasr-runtime-resources/models:/workspace/models \
  registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-online-cpu-0.1.13

3.2 启动服务端

docker启动之后，启动 funasr-wss-server-2pass服务程序。

因为docker启动之后，直接进入到workspace下。可以继续使用cd 等命令

启动脚本

cd FunASR/runtime
nohup bash run_server_2pass.sh \
  --certfile 0 \
  --download-model-dir /workspace/models \
  --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
  --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx  \
  --online-model-dir damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-online-onnx  \
  --punc-dir damo/punc_ct-transformer_zh-cn-common-vad_realtime-vocab272727-onnx \
  --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
  --itn-dir thuduj12/fst_itn_zh \
  --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &
  
# 如果您想关闭ssl，增加参数：--