超快的 AI 实时语音转文字，比 OpenAI 的 Whisper 快4倍 -- 开源项目 Faster Whisper

最新推荐文章于 2025-06-21 22:38:58 发布

TechAI

最新推荐文章于 2025-06-21 22:38:58 发布

阅读量3.5k

点赞数 22

CC 4.0 BY-SA版权

文章标签：人工智能 whisper

本文链接：https://blog.youkuaiyun.com/TechAI/article/details/136943462

faster-whisper 这个项目是基于 OpenAI whisper 的模型，在上面的一个重写。

使用的是 CTranslate2 的这样的一个库，CTranslate2 是用于 Transformer 模型的一个快速推理引擎。

在相同精度的情况下，faster-whisper 的速度比 OpenAI whisper 快 4 倍，并且使用更少的内存。

这是 faster-whisper 与 OpenAI whisper 的测试对比结果，使用了一个13分钟的音频做的测试。

OpenAI whisper 用了4分30秒，faster-whisper 只用了54秒。

并且，faster-whisper 使用的 CPU 和 GPU 都只有 OpenAI whisper 的三分之一左右。

性能大幅提升，资源占用大幅降低，就是马跑的更快了，吃的更少了。

感紧跑起来试试。

本地安装运行

faster-whisper 需要 Python 3.8 之后的版本，可以创建Python虚拟环境来实现。

安装 faster-whisper ：

pip install faster-whisper

Python代码：

from faster_whisper impor

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TechAI

关注关注

22
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

《AI大模型开发笔记》Faster-Whisper 免费开源的高性能语音识别模型

qq837993702的博客

11-23

3031

Whisper模型根据参数量来区分，有多个不同的版本，分别是tiny，base，small medium，large， large-v2， large-v3。为了提高推理的速度，faster-whisper通过使用 CTranslate2 工具进行优化，大幅度改善了推理的速度。从下图可以看出，faster-whisper 推理时间只有原模型的1/5， GPU显存的使用也不到原来的二分之一。目前性能最好的是2023年11月7日发布的参数量为1550M的large-v3。下面是，我在代码执行过程中碰到的问题。

OpenAI Whisper：开启语音转文本的智能时代

xiezhipu的博客

03-06

258

Whisper不仅是一项技术突破，更是开源协作的典范。它通过开放代码与社区共建，加速了语音识别技术的普及与创新。无论是专业开发者寻求技术赋能，还是普通用户追求效率提升，Whisper都为其提供了无限可能。随着AI技术的持续演进，Whisper有望成为未来智能生活的核心基础设施，让“听见”与“理解”变得更加自然与高效。

参与评论您还未登录，请先登录后发表或查看评论

高效耳语模型：Faster-Whisper

02-08

Faster-Whisper使用CTranslate2重新实现了OpenAI的Whisper模型，CTranslate2是Transformer模型的快速推理引擎。这种实现比openai/whisper在使用更少内存的情况下达到相同精度的4倍。对于需要高效Transformer模型推理的项目，faster-whisper是一个性能优秀的选择。

基于OpenAI的Whisper构建的高效语音识别模型：faster-whisper

十年以上架构设计经验，专注于软件架构和人工智能领域，对机器视觉、NLP、音视频等领域都有涉猎

12-29

1万+

faster-whisper是基于OpenAI的Whisper模型的高效实现，它利用CTranslate2，一个专为Transformer模型设计的快速推理引擎。这种实现不仅提高了语音识别的速度，还优化了内存使用效率。faster-whisper的核心优势在于其能够在保持原有模型准确度的同时，大幅提升处理速度，这使得它在处理大规模语音数据时更加高效。

语音转文字-免费的开源模型部署

热门推荐

SlowFeather's blog

02-02

1万+

以前做的智能对话软件接的Baidu API，想换成本地的，就搭一套Faster-Whisper吧。下面是B站视频实时转写的截图。

faster_whisper语音识别

TuringEvo专栏

05-23

1072

检测可用设备：list_available_devices()函数。2 从音频设备读取数据，传递给 faster_whisper 识别。我这边usb摄像头带麦克风的，所以 DEV_index = 8。1 使用 pyaudio 打开音频设备。按键 r 录制 s 停止 q退出。

【亲测免费】探秘Faster Whisper：一款加速 Whisper 模型训练的高效工具

gitblog_00069的博客

03-20

2085

探秘Faster Whisper：一款加速 Whisper 模型训练的高效工具在自然语言处理（NLP）领域，Transformer架构的模型如Whisper已经展现了强大的语音识别能力。然而，这些模型的训练过程往往需要巨大的计算资源和时间。Faster Whisper 是SYSTRAN开发的一个开源项目，旨在通过优化技术加速Whisper模型的训练，让研究人员和开发者能够更高效地利用现有硬件资源...

使用 Faster Whisper 和 Gradio 实现实时语音转文字

进击的码农

11-02

2078

Faster Whisper 是一种高效的语音识别模型，其在准确性和性能上都表现出色。该模型基于先进的神经网络架构，能够高效处理实时音频输入并将其转化为文字。Faster Whisper 以其速度快、处理能力强而受到众多开发者的青睐。Gradio 是一个用于快速搭建机器学习接口的开源 Python 库。通过 Gradio，你可以轻松创建交互式的用户界面，使得模型的演示和测试变得简单直观。它支持多种输入输出格式，包括音频、图像和文本等，适用于各种机器学习应用。

最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装）

XiaoLiuLB的博客

10-05

3635

Jupyter Notebook 启动后，我们导入所有库，然后获取模型，我们选择 Whisper 大型版本 3 Turbo，然后下载模型并将其放入我们的 CUDA 设备（即 GPU），接着我会初始化这个自动语音识别的管道，提供模型、分词器，并指定我们的 CUDA 设备。新推出的 Whisper Turbo 模型是 OpenAI 开发的，经过约 500 万小时的标记数据训练，具有出色的泛化能力。尽管近年来出现了许多音频和多模态模型，但Whisper 仍是生产级自动语音识别（ASR）的首选。

faster-whisper-webui

Luke Ewin的博客

06-11

1万+

【亲测免费】 Faster Whisper: 高效语音转录工具

gitblog_07895的博客

09-13

609

Faster Whisper: 高效语音转录工具项目基础介绍和主要编程语言 Faster Whisper 是一个基于 CTranslate2 的高效语音转录工具，它是对 OpenAI 的 Whisper 模型的重新实现。该项目主要使用 Python 语言进行开发，旨在提供比原版 Whisper 模型更快的推理速度和更低的内存消耗。项目核心功能 Faster Whisper 的核心功能包括： ...

Faster Whisper: 高效的语音转录工具

gitblog_07354的博客

09-13

562

Faster Whisper: 高效的语音转录工具项目基础介绍和主要编程语言 Faster Whisper 是一个基于 CTranslate2 的高效语音转录工具，它是对 OpenAI 的 Whisper 模型的重新实现。该项目主要使用 Python 语言进行开发，旨在提供比原版 Whisper 更快的转录速度和更低的内存消耗。项目核心功能高效转录: Faster Whisper 通过使用...

使用Faster Whisper：提升你的音频处理效率和质量

gitblog_00071的博客

03-20

1492

使用Faster Whisper：提升你的音频处理效率和质量项目地址:https://gitcode.com/gh_mirrors/fas/faster-whisper 该项目，，是一个开源的Python库，专为优化对Whisper模型（一种先进的AI语音识别模型）的推理而设计。它旨在提供更快、更高效的处理速度，同时保持高质量的音频转文本转换。技术分析 Faster Whisper构建于PyT...

开源语音转文本（STT）大模型

cnhome的专栏

05-14

2223

本文介绍了六种主流的中文语音识别工具：Whisper、wav2vec 2.0、Vosk、ESPnet、PaddleSpeech 和 FunASR。每种工具的特点、适用场景、代码示例及项目地址均有详细说明。Whisper 以其多语言支持和开源特性适用于通用转录；wav2vec 2.0 适合研究定制；Vosk 适合本地化实时应用；PaddleSpeech 提供易用API；FunASR 针对长音频和嘈杂环境优化。根据需求，可选择不同工具进行快速上手、本地化部署或学术研究。

OpenAI 开源的免费 AI 语音转文字工具 - Whisper，一步一步本地部署运行

TechAI的博客

03-21

7241

Whisper 是 OpenAI 研发的一个通用的语音识别模型，可以把语音转为文本。它在大量多样化的音频数据集上进行训练，同时还是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别

【亲测免费】 Faster Whisper 使用教程

gitblog_00489的博客

08-09

1983

Faster Whisper 使用教程项目介绍 Faster Whisper 是一个基于 CTranslate2 的 OpenAI Whisper 模型的重新实现。它是一个快速推理引擎，用于 Transformer 模型，相比 OpenAI 的 Whisper 模型，速度提升了 4 倍。该项目支持 Windows、Linux 和 macOS 平台，并且提供了多种优化选项，如 FP16 和 INT...

音频转文本--我们选择faster-whisper

goggle1的专栏

04-02

2112

这里建议只下载faster-whisper-large-v2模型，也就是大模型的第二版，因为faster-whisper本来就比whisper快，所以使用large模型优势就会更加的明显。faster-whisper项目内部已经整合了VAD算法，VAD是一种音频活动检测的算法，它可以准确的把音频中的每一句话分离开来，并且让whisper更精准的定位语音开始和结束的位置。使用faster-whisper，最好选择python3.10版本，那好吧。回到项目根目录faster-whisper-webui下，

彩色图像的PSNR、SSIM、LPIPS、CIEDE2000评价算法源码matlab

07-16

以下是彩色图像的PSNR、SSIM、LPIPS和CIEDE2000评价算法的Matlab源码示例： 1. PSNR（峰值信噪比）： ```matlab function psnr_value = PSNR(original, distorted) [M, N, ~] = size(original); mse = sum((original(:) - distorted(:)).^2) / (M * N * 3); max_value = max(original(:)); psnr_value = 10 * log10(max_value^2 / mse); end ``` 2. SSIM（结构相似性指数）： ```matlab function ssim_value = SSIM(original, distorted) K1 = 0.01; K2 = 0.03; L = 255; C1 = (K1 * L)^2; C2 = (K2 * L)^2; original = double(original); distorted = double(distorted); mean_original = filter2(fspecial('gaussian', 11, 1.5), original, 'valid'); mean_distorted = filter2(fspecial('gaussian', 11, 1.5), distorted, 'valid'); var_original = filter2(fspecial('gaussian', 11, 1.5), original.^2, 'valid') - mean_original.^2; var_distorted = filter2(fspecial('gaussian', 11, 1.5), distorted.^2, 'valid') - mean_distorted.^2; cov_original_distorted = filter2(fspecial('gaussian', 11, 1.5), original .* distorted, 'valid') - mean_original .* mean_distorted; ssim_map = ((2 * mean_original .* mean_distorted + C1) .* (2 * cov_original_distorted + C2)) ./ ((mean_original.^2 + mean_distorted.^2 + C1) .* (var_original + var_distorted + C2)); ssim_value = mean2(ssim_map); end ``` 3. LPIPS（感知相似性指标）：需要下载并使用LPIPS库，源码和使用说明可在https://github.com/richzhang/PerceptualSimilarity 找到。 4. CIEDE2000（CIE 2000色差公式）：需要下载并使用CIEDE2000库，源码和使用说明可在https://www.mathworks.com/matlabcentral/fileexchange/46861-color-difference-cie-de2000 找到。以上是基本的示例代码，用于评估图像质量的不同评价指标。你可以根据实际需求和图像数据进行适当的调整和修改。