最近我在一台阿里云轻量级服务器上成功部署了一个语音转文字(Speech-to-Text)的全栈 Demo,支持 Whisper 模型的语音转写,还可以选择 AI 自动纠错,并支持中文和英文语音测试。这篇文章将完整记录从环境配置、项目部署、模型下载到使用效果的全过程,帮助你快速上手。
本文承接上一篇文章,
开源音视频转文字工具:基于 Vosk 和 Whisper 的多语言语音识别项目
一、服务器与系统环境
- 云服务器:阿里云 99 元/年的轻量服务器
- 配置:2 核 CPU + 2G 内存 + 3Mbps 带宽
- 系统版本:Alibaba Cloud Linux 3 (OpenAnolis Edition) x86_64
- Python 环境:系统自带 Python 3.7.16,另安装 Python 3.10.14
- 可视化面板:宝塔面板(免费版 9.5.0)
二、项目部署步骤
1. 克隆代码仓库
打开宝塔面板 → 终端,进入你希望存放项目的目录(如 /www/wwwroot):
cd /www/wwwroot
git clone https://gitee.com/phpervip/speech-to-text.git

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



