搭建一个语音转文字的简单全栈项目：基于 Streamlit + Whisper 的实践指南

原创

已于 2025-06-01 11:54:31 修改 · 1.3k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#whisper

于 2025-05-24 21:11:40 首次发布

最近我在一台阿里云轻量级服务器上成功部署了一个语音转文字（Speech-to-Text）的全栈 Demo，支持 Whisper 模型的语音转写，还可以选择 AI 自动纠错，并支持中文和英文语音测试。这篇文章将完整记录从环境配置、项目部署、模型下载到使用效果的全过程，帮助你快速上手。

本文承接上一篇文章，
开源音视频转文字工具：基于 Vosk 和 Whisper 的多语言语音识别项目

一、服务器与系统环境

云服务器：阿里云 99 元/年的轻量服务器
配置：2 核 CPU + 2G 内存 + 3Mbps 带宽
系统版本：Alibaba Cloud Linux 3 (OpenAnolis Edition) x86_64
Python 环境：系统自带 Python 3.7.16，另安装 Python 3.10.14
可视化面板：宝塔面板（免费版 9.5.0）

二、项目部署步骤

1. 克隆代码仓库

打开宝塔面板 → 终端，进入你希望存放项目的目录（如 /www/wwwroot）：

cd /www/wwwroot
git clone https://gitee.com/phpervip/speech-to-text.git

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

phper8

关注关注

26
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

语音识别软件-基于PyQT+Whisper实现的语音识别软件设计-附项目源码+流程教程-优质项目实战

06-02

本软件Whisper语音识别应用是一款基于OpenAI Whisper模型开发的多语言语音识别工具，通过PyQt5构建了现代化深色主题界面，特别优化了中文识别体验。该应用支持中文、英语、日语等多种语言识别，并内置中文繁简转换...

AI Meeting Notes：基于Streamlit的应用，使用OpenAI Whisper和GPT模型进行会议音频录制、转录并生成结构化AI会议纪要。.zip

最新发布

11-21

基于Streamlit开发的智能会议笔记应用。它通过集成OpenAI的Whisper和GPT模型，能够自动将会议录音转换为文字转录，并进一步生成结构化的智能会议纪要。该项目解决了手动记录会议内容效率低下的痛点，实现了会议记录...

参与评论您还未登录，请先登录后发表或查看评论

如何在 Python 中将语音转换为文本

gongdiwudu的专栏

01-24

1万+

学习如何使用语音识别 Python 库执行语音识别，以在 Python 中将音频语音转换为文本。想要更快地编码吗？我们的Python 代码生成器让您只需点击几下即可创建 Python 脚本。现在就现在试试！

【亲测免费】实时语音转文字应用：Streamlit-STT-App

gitblog_00094的博客

05-30

730

实时语音转文字应用：Streamlit-STT-App 项目介绍 Streamlit-STT-App 是一款基于 Streamlit 和 streamlit-webrtc 构建的实时语音转文字应用。该应用的核心技术是 mozilla/DeepSpeech，一个开源的语音识别引擎。用户可以通过浏览器实时录制语音，并立即将其转换为文字，非常适合需要快速语音转录的场景。项目技术分析技术栈 Stre...

使用阿里云服务进行语音转文字

weixin_47118911的博客

04-11

4561

使用阿里云提供的语音转文字的云服务，进行语音转文字

阿里-语音转文字开发联调，学习记录

A186G的博客

02-13

238

【代码】阿里-语音转文字开发联调，学习记录。

【AI语言模型】阿里推出音视频转文字引擎

珞瑜的博客

09-20

1868

阿里的音视频转文字引擎可以正式使用，用户可体验所有AI功能，含全文概要、章节速览、发言总结等高阶AI功能。

实时语音转文字(基于NAudio+Whisper+VOSP+Websocket)

htsitr2的专栏

10-13

1277

今天花了大半天时间研究一个实时语音转文字的程序，目的还包括能够唤醒服务，并把命令提供给第三方。由于这方面的材料已经很多，我把我在过程中遇到的和解决的问题简单说下。源代码开源在VOSP这里有三点需要注意的：1）sampleRate（采样频率）要选择16000，不要选别的，不然Whisper不兼容。2）声音录制得到的数据是一个个块（block）,每次block大概1500byte左右。

开源音视频转文字工具：基于 Vosk 和 Whisper 的多语言语音识别项目

phper8的博客

05-19

1762

随着短视频和播客等音视频内容的快速发展，语音转文字的需求日益增长。本项目采用双引擎架构，结合Vosk（离线场景）和Whisper（多语言支持）两大开源语音识别模型，提供高效的音视频转文字解决方案。核心特性包括多语言支持（中文、英文等）、多格式支持（MP4、MOV、WAV等）和智能输出（纯文本、JSON、SRT）。技术优势体现在双引擎协同、智能分段和灵活配置上，适应不同硬件和场景需求。项目适用于内容创作、商业应用和个人使用，未来计划增强实时转录、多声道分离和性能优化。

【人工智能】AI语音技术：如何用阿里百炼实现精准文本转语音与语音转文本？

热爱人工智能的一个要卡拉米！

12-13

1343

通过本篇文章，我们详细介绍了如何使用阿里百炼的语音合成和识别技术，实现文本转语音和语音转文本的完整流程。通过引入热词库，我们可以显著提高特定词汇的识别准确率，从而更好地满足实际业务需求。希望本文能够为你在语音技术的应用中提供有价值的参考。📈在未来，随着AI技术的不断发展，我们相信语音技术将会在更多领域发挥重要作用。让我们拭目以待！

阿里开源FunASR：语音识别新革命，从智能客服到方言识别

lmtealily的博客

03-13

6683

最近，阿里开源了一款名为FunASR的语音识别工具，据说它在准确性和速度上都有显著提升。出于好奇，我决定深入探索一下这款工具，并分享我的实战经验。本文将从工具介绍、同类型工具对比、应用场景以及具体实现案例及其代码等多个方面，带你全面了解FunASR。无论你是开发者、产品经理，还是对语音识别技术感兴趣的普通用户，这篇文章都将为你提供实用的参考和启发。

Alibaba Cloud Linux 3 正式发布！新特性来了！

CharlesE_233的博客

04-28

1万+

Alibaba Cloud Linux 3 于2021年4月28日正式发布，一起来看看有哪些新特性吧。整理自官方直播。

本地部署AI模型把声音文件转换为文字

热土程序园，利他愉己~

02-19

1237

本地部署AI模型把声音文件转换为文字一.在线把声音文件转换为文字方法讯飞星火AI大模型支持直接把音频文件转换为文字，官网：https://xinghuo.xfyun.cn/ 二.本地部署模型：FunASR 1.介绍 FunASR 是由阿里巴巴达摩院开发的开源语音识别工具包。提供可便捷本地或者云端服务器部署的离线文件转写服务，内核为FunASR已开源runtime-SDK。

Streamlit实时语音转文字应用常见问题解决方案

gitblog_00507的博客

01-24

352

Streamlit实时语音转文字应用常见问题解决方案该项目是一个基于Streamlit的实时语音转文字（STT）的开源应用程序，使用.mozilla/DeepSpeech作为语音识别引擎。主要编程语言为Python。新手常见问题及解决步骤问题一：项目环境搭建问题描述：新手在搭建项目环境时可能会遇到依赖库安装不成功的问题。解决步骤：确保你的Python版本符合项目要求。克隆项目到本...

阿里云dsw部署langchain-chatchat+whisper

weixin_73890126的博客

11-06

688

# 初始化 # 启动xin # 进入xinference启动模型 # 切换终端启动chat # 启动chatchat 阿里云人工智能平台dsw环境选择:pytorch-develop:2.1-gpu-py311-cu118-ubuntu22.04gpu:NVIDIA A10 考虑到我要部署的设备，模型配置如下：部署成功：bge-large-zh-v1.5是用来将数据（如单词、句子、图像、实体等）映射到低维度的、连续的向量空间中，实现文档向量化等工作三、启动cha

markdown

weixin_48843478的博客

12-20

226

【代码】markdown。

Vox Box: 开源文本转语音和语音转文本服务器

gitblog_00073的博客

04-21

381

Vox Box: 开源文本转语音和语音转文本服务器项目介绍 Vox Box 是一个开源的文本转语音（TTS）和语音转文本（STT）服务器，支持与 OpenAI API 兼容的多种后端，如 Whisper、FunASR、Bark 和 CosyVoice。它旨在为开发者提供一个方便的工具，以构建和部署具有高效率语音处理能力的应用程序。项目快速启动以下是快速启动 Vox Box 的步骤：首先，确...

解锁语音AI新高度：Whisper技术详解与实战应用

远程部署调试运行安装项目调试二次开发项目技术新持续迭代部分源码免费分享

04-12

2408

从代码实现到行业落地，Whisper 正在重塑语音交互的未来。尽管存在局限性，其创新架构和开源生态为开发者提供了无限可能。随着技术迭代和场景深化，这个 "会听话" 的 AI 模型有望成为数字世界的通用接口。关注作者获取最新 AI 技术动态与实战案例！

真·007！核酸采样机器人现身郑州；Python3面试准备与速查表；实时语音转文字工具库；AI绘画根据文本创建纹理；前沿论文 | ShowMeAI资讯日报