一、系统环境
操作系统:Windows Server 2019 64位操作系统
CUDA版本:
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Tue_Aug_15_22:09:35_Pacific_Daylight_Time_2023
Cuda compilation tools, release 12.2, V12.2.140
Build cuda_12.2.r12.2/compiler.33191640_0
二、部署流程
1、Anaconda安装
下载地址:Anaconda Installers and Packages
下载好后,双击进行安装。安装地址为:D:\ProgramData\anaconda3
2、Git安装
下载地址:Git - Downloading Package
下载好后,双击进行安装。
3、项目下载
(1)在D盘创建Project文件夹用于存放项目源码,打开Project文件夹地址栏输入cmd进入控制台
cd /d D:\Project
git clone --recursive https://github.com/FunAudioLLM/SenseVoice.git
(2)执行git clone命令下载源码
源码下载完成目录结构如下:
4、配置CUDA环境变量
安装AI框架CUDA和cuDNN的安装(如果已安装,可跳过):
(1)CUDA下载地址(需下载显卡支持的版本,且大于等于V11.8):https://developer.nvidia.com/cuda-toolkit-archive
//检查显卡支持的最大CUDA版本命令行指令
nvidia-smi
安装地址为:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2
(2)cuDNN下载地址(需下载CUDA支持的版本,且大于等于V8.5):https://developer.nvidia.com/rdp/cudnn-archive
//检查是否安装CUDA成功的命令行指令
nvcc -V
(3)配置CUDA环境变量
系统环境参数path新增
C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\bin
5、修改SenseVoice依赖版本
(1)打开D:\Project\SenseVoice目录找到requirements.txt文件编辑器打开修改成如下内容
--extra-index-url https://download.pytorch.org/whl/cu121
torch==2.5.1+cu121
torchvision==0.20.1+cu121
torchaudio==2.5.1+cu121
modelscope
huggingface
huggingface_hub
funasr>=1.1.3
numpy<=1.26.4
gradio
fastapi>=0.111.1
6、创建conda虚拟环境并下载依赖
(1)打开D:\Project\SenseVoice目录地址栏输入cmd进入控制台执行如下命令创建环境
# 创建 Conda 环境
conda create -n sensevoice python=3.8
conda activate sensevoice
# 安装依赖
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
等待环境安装完成
7、下载模型
(1)在D:\Project\SenseVoice目录下创建iic目录
(2)打开D:\Project\SenseVoice\iic目录地址栏输入cmd进入控制台执行如下命令下载模型
git clone https://www.modelscope.cn/iic/SenseVoiceSmall.git
git clone https://www.modelscope.cn/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch.git
目录结构如下:
(3)将SenseVoiceSmall与speech_fsmn_vad_zh-cn-16k-common-pytorch目录下的example目录拷贝到D:\Project\SenseVoice目录下
example目录下的内容如下:
(4)在D:\Project\SenseVoice目录下找到webui.py编辑器打开注释掉不需要的音频文件保存
8、使用webui部署并支持远程访问
(1)打开D:\Project\SenseVoice目录地址栏输入cmd进入控制台执行如下命令启动
conda activate sensevoice
python webui.py
启动成功示例图:
(2)配置环境变量支持远程访问
变量名:GRADIO_SERVER_NAME 值:0.0.0.0
变量名:GRADIO_SERVER_PORT 值:7860
9、测试语言识别
(1)上传音频文件点击start
PS:上传的如果是mp3格式页面出现error需要安装FFmpeg安装步骤如下:
(1)打开FFmpeg官网:Download FFmpeg
(2)在D盘创建ffmpeg文件夹将下载的压缩包解压
(3)配置ffmpeg环境变量path增加D:\ffmpeg\ffmpeg-7.1-full_build\bin
(4)cmd打开控制台执行ffmpeg -version查看ffmpeg版本,如果可以看到打印出 ffmpeg的版本,则表示ffmpeg安装成功了,反之则表示安装失败
识别语音成功示例图: