【语音识别】搭建本地的语音转文字系统:FunASR(离线不联网即可使用)

本文详细介绍了如何在阿里达摩院的FunASR平台上部署服务端,包括安装Docker、拉取镜像、配置模型和运行服务,以及客户端的下载、安装和使用方法。重点涉及Python脚本和不同环境下的FFmpeg集成。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考自:

阿里达摩院

服务端

安装 Docker

(过程省略)

下面步骤如果是在 Linux 需要以管理员方式执行命令,开头添加 sudo

docker 拉取镜像

docker pull registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

创建模型目录

mkdir -p ./funasr-runtime-resources/models

运行 docker 镜像

docker run -p 10095:10095 -it --privileged=true -v $PWD/funasr-runtime-resources/models:/workspace/models registry.cn-hangzhou.aliyuncs.com/funasr_repo/funasr:funasr-runtime-sdk-cpu-0.4.4

启动服务

cd FunASR/runtime

nohup bash run_server.sh \
  --download-model-dir /workspace/models \
  --vad-dir damo/speech_fsmn_vad_zh-cn-16k-common-onnx \
  --model-dir damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx  \
  --punc-dir damo/punc_ct-transformer_cn-en-common-vocab471067-large-onnx \
  --lm-dir damo/speech_ngram_lm_zh-cn-ai-wesp-fst \
  --itn-dir thuduj12/fst_itn_zh \
  --hotword /workspace/models/hotwords.txt > log.txt 2>&1 &

# 如果您想关闭ssl,增加参数:--certfile 0
# 如果您想使用时间戳或者nn热词模型进行部署,请设置--model-dir为对应模型:
#   damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx(时间戳)
#   damo/speech_paraformer-large-contextual_asr_nat-zh-cn-16k-common-vocab8404-onnx(nn热词)
# 如果您想在服务端加载热词,请在宿主机文件./funasr-runtime-resources/models/hotwords.txt配置热词(docker映射地址为/workspace/models/hotwords.txt):
#   每行一个热词,格式(热词 权重):阿里巴巴 20(注:热词理论上无限制,但为了兼顾性能和效果,建议热词长度不超过10,个数不超过1k,权重1~100)

客户端

下载客户端测试工具

wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/sample/funasr_samples.tar.gz

解压上面链接下载的文件。比如我解压到目录 C:\Users\z\Documents\FunASR

解压所在目录下的 funasr_samples\samples 目录为不同类型的语言相关的使用文件

但是从使用上来讲,我直接 git clone https://github.com/alibaba/FunASR.git 下载源码到里面的 runtime 目录下,使用体验会更好

安装 FFMpeg

apt-get install -y ffmpeg  # ubuntu
# yum install -y ffmpeg    # centos
# brew install ffmpeg      # mac
# winget install ffmpeg    # wins

HTML

解压进入目录:C:\Users\z\Documents\FunASR\funasr_samples\samples\html\static

打开 index.html 使用网页的形式进行操作

文档:https://github.com/modelscope/FunASR/blob/861147c7308b91068ffa02724fdf74ee623a909e/runtime/html5/readme_zh.md

Python

下载 python

https://www.python.org/ftp/python/3.11.8/python-3.11.8-amd64.exe

pip 安装依赖库

pip install -U modelscope funasr -i https://mirror.sjtu.edu.cn/pypi/web/simple
pip install -U websockets pyaudio ffmpeg-python -i https://mirror.sjtu.edu.cn/pypi/web/simple

运行客户端

# 这个目录取决于上面你解压的文件所在的目录
cd C:\Users\z\Documents\FunASR\runtime\python\websocket

# 识别本地文件
python funasr_wss_client.py --host "127.0.0.1" --port 10095 --mode offline --audio_in "C:\Users\z\Videos\02d0b6703d9b5d6bc05a46548a938826_new.mp3"

我自己制作了一个使用 python 脚本运行处理的工具,可以下载使用。

下载链接中的 rar 解压后使用: https://github.com/LaoDie1/Godot-FunASR-UI/releases

在这里插入图片描述
设置执行的 Python,和 funasr_wss 脚本

在这里插入图片描述
注意:好几个 G 的大小的文件可能上传不上去而造成失败


更多内容和文档,详见:alibaba-damo-academy/FunASR (github.com)

### 构建本地离线环境下的 FunASR 部署指南 #### 创建必要的文件夹结构 为了准备 FunASR 运行所需的资源,在开始之前需先建立相应的存储路径。通过命令行执行如下指令来创建模型保存目录: ```bash mkdir -p ./funasr-runtime-resources/models ``` 此操作会构建一个名为 `funasr-runtime-resources` 的根目录,并在其内部设立子文件夹 `models` 用于后续存放下载好的预训练模型[^1]。 #### 安装 Docker 环境 对于 Windows 11 用户来说,部署 FunASR 前提条件之一就是安装并配置好 Docker 环境。这一步骤至关重要,因为 FunASR 主要依赖于容器化技术实现跨平台支持以及简化开发流程。具体步骤可以参照官方文档说明进行设置[^2]。 #### 获取 FunASR SDK 及其依赖项 完成上述准备工作之后,接下来是从 GitHub 上克隆最新的 FunASR 项目源码仓库至本地机器上。打开终端窗口输入以下 Git 命令获取最新版本代码库: ```bash git clone https://github.com/alibaba-damo-academy/FunASR.git cd FunASR/runtime/docker/ ``` 这里假设读者已经具备基本的 Git 使用技能;如果尚未熟悉该工具,则建议先行学习相关基础知识再继续下面的操作。 #### 编译镜像与启动服务 进入指定路径后,按照 README 文件中的指示编译适用于目标系统的 Docker 映像。通常情况下只需运行简单的 shell 脚本就能自动处理整个过程: ```bash ./build.sh offline docker run --name funasr -d -v $(pwd)/../conf:/root/.config/funasr conf:latest ``` 以上两条语句分别负责制作定制化的 FunASR 应用程序包并将其实例化为后台守护进程持续监听来自客户端的应用请求。 #### 测试验证功能正常运作 最后一步便是检验刚刚搭建起来的服务实例能否正确解析音频流数据并返回预期的文字表述结果。可以通过编写 Python 脚本来调用 RESTful API 接口发送测试样本给服务器端做实时换实验。 ```python import requests url = "http://localhost:8097/speech-to-text" files = {"audio": open("example.wav", "rb")} response = requests.post(url, files=files) print(response.json()) ``` 这段脚本展示了如何利用 HTTP POST 方法向本地主机上的 FunASR Web Service 发送一段 WAV 格式的录音片段作为参数传递过去等待响应消息体内的 JSON 对象携带最终识别出来的文本串内容显示出来。
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值