OpenAI Whisper：开源界的语音识别神器

原创已于 2025-01-13 11:13:53 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#whisper #语音识别 #人工智能 #github #开源

于 2025-01-02 20:43:08 首次发布

Whisper 是一个多功能的语音识别模型，通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练，能够执行包括多种语言的语音识别、语音翻译以及语言辨识等多项任务。

Stars 数	73633
Forks 数	8800

主要特点

多语言支持：Whisper能够识别和转录多种语言的语音，这使得它在跨语言交流和国际化应用中具有巨大潜力。
语音转文字：Whisper可以将音频文件转换为准确的文字记录，适用于会议记录、字幕生成等场景。
语音翻译：除了转录，Whisper还能将语音直接翻译成英文文本，为跨语言交流提供便利。
语言识别：Whisper能够自动检测音频中使用的语言，无需用户手动指定。
开源免费：作为一个开源项目，Whisper可以被自由使用和修改，这大大促进了其在各种应用场景中的推广。
多种模型大小：Whisper提供了从tiny到large不同大小的模型，用户可以根据自己的需求和硬件条件选择合适的版本。

GitHub：https://github.com/openai/whisper

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

开源项目精选

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

语音识别开源项目推荐：GitHub热门仓库盘点

AGI×大数据，开启智能时代的认知跃迁；解码AGI，赋能数据驱动的智能革命。

07-09

1450

想象一下：开车时只需说一句话就能自动发消息，听英文演讲时实时获得中文翻译，给视障人士读文本时精准转换——这些场景的背后，语音识别（Automatic Speech Recognition, ASR）技术正在改变我们与机器的交互方式。如今，随着开源项目的爆发，ASR不再是大厂的专利，开发者、学生甚至普通用户都能借助这些工具快速实现自己的语音应用。本文将为你盘点2024年GitHub上最热门的5个语音识别开源项目，从核心原理到实战代码，从应用场景到优化技巧，帮你理清ASR的技术脉络，找到适合自己的工具。

WhisperChain：开源 AI 实时语音转文字工具！自动消噪优化文本，效率翻倍

士多啤梨先生の博客

03-03

2190

WhisperChain 是一款基于 Whisper.cpp 和 LangChain 的开源语音识别工具，能够实时将语音转换为文本，并自动清理和优化文本内容，适用于会议记录、写作辅助等多种场景。

参与评论您还未登录，请先登录后发表或查看评论

AI语音识别神器Openai Whisper对中文的支持如何？

撸啊撸的博客

03-25

1万+

语音识别一直以来都是人工智能领域中一个不容忽视的技术，随着大模型时代的到来，这项技术也发生了质的变化。凡是在AI相关的讨论中，语音识别绝对是一个高热的话题。目前开源的语音识别软件中，Openai Whisper绝对是霸主的存在，他在这方面的表现甚至超越了很多商用的产品，那么Openai Whisper对中文的支持如何呢，今天我们来简单测试一下。从上面的测试可以看出，对标准的普通话来说，识别已经相当成功了，同时最让我惊讶的是，他对粤语的识别竟然错误率这么低，基本上是翻译了过来。

【GitHub开源AI精选】WhisperLiveKi：开源实时语音识别利器，实时转写+说话人识别+完全本地部署，一键搞定会议纪要

寻道AI，探索AI无限可能！

10-29

1061

WhisperLiveKit 是一个开源的实时语音识别工具，能够将语音实时转录为文字，并且支持说话人识别功能。它基于先进的技术，如 SimulStreaming 和 WhisperStreaming，提供了超低延迟的转录功能。更重要的是，WhisperLiveKit 完全在本地处理语音数据，确保了隐私和安全。它支持多种语言，可以通过简单的命令快速启动，并且提供了 Web 界面和 Python API，方便开发者和普通用户使用。

语音识别开源项目

热门推荐

github_19776427的专栏

09-13

7万+

语音识别项目： http://www.oschina.net/project/tag/203/tts-speech sf.net http://www.codesoso.net/Search?q=%D3%EF%D2%F4%CA%B6%B1%F0&l=c http://search.codesoso.com/Search?q=%E8%AF%AD%E9%9F

语音识别开源框架 openAI-whisper

AI炼丹师的专栏

07-14

4422

https://github.com/PaddlePaddle/PaddleSpeechhttps://github.com/PaddlePaddle/PaddleSpeech/tree/develop/demos/speech_webOpenAI 开源语音识别模型 Whisper - OSCHINA - 中文开源技术交流社区OpenAI Whisper中文语音识别效果尝试和应用（一）_迷途的小朋友的博客-优快云博客GitHub - openai/whisper: Robust Speech Recogn

本地部署，Whisper: 开源语音识别模型

07-24

3640

Whisper 是一个由 OpenAI 训练的强大的开源语音识别模型，它可以将语音转换为文本。Whisper 支持多种语言和语音，并且能够识别不同口音和背景噪音。它在各种语音识别任务中表现出色，包括语音转文本、语音翻译和语音命令识别。Whisper 是一个强大且易于使用的开源语音识别模型，它可以应用于各种场景。其多语言支持、高精度和鲁棒性使其成为语音识别任务的理想选择。t=N7T8。

常用语音识别开源四大工具：Kaldi，PaddleSpeech，WeNet，EspNet

声纹感知洞察芯声

05-03

1万+

无论是基于成本效益还是社区支持，我都坚决认为开源才是推动一切应用的动力源泉。下面推荐语音识别开源工具：Kaldi，Paddle，WeNet，EspNet。

语音识别“神器“深度拆解：whisper.cpp从入门到精通

gxiqoq46的博客

09-25

1493

【摘要】whisper.cpp是OpenAI Whisper模型的轻量级C/C++实现，通过优化实现了离线、跨平台的语音识别功能。文章从四个维度详细介绍了该工具：1）核心优势：体积小、速度快、隐私强，支持多语言识别和翻译；2）安装指南：分系统讲解Git、CMake、FFmpeg的配置方法；3）使用教程：5步完成首个语音识别任务，包括模型下载、音频转换等；4）进阶功能：实时转录、中文识别等6种玩法及常见问题解决方案。该工具特别适合新手体验AI语音识别，也满足开发者集成需求，具有免费开源、隐私安全等特点。

语音转文字的先驱-认识Buzz的前世今生

kcarly的专栏

01-23

1655

Buzz 是一款基于 OpenAI Whisper 模型开发的开源语音转文字工具，其历史可以追溯到 Whisper 模型的推出，并在之后逐渐发展为一个功能强大且广泛使用的工具。

【Python黑科技】某音/短视频文案一键提取神器（Playwright真机模拟+Faster-Whisper离线AI识别）

最新发布

11-25

不同于传统的接口抓取，本项目创新性地采用了 Playwright 手机仿真技术，完美模拟 iPhone 真机浏览行为，配合 OpenAI 开源的 Faster-Whisper 模型，实现了从“视频嗅探”到“无损下载”再到“高精度语音转文字”的...

语音识别开源软件

11-04

语音识别开源软件，通过这个开源软件能够快速开发出相关语音识别设备

适合新手开发的开源语音识别模型项目——ChatTTS 推荐！

thinkersone的博客

06-25

628

hatTTS是一个基于Python的自然语言处理模型，它使用TensorFlow和NLTK库进行语音识别和文本生成。这个项目旨在提供一个易于使用的工具，以便开发人员可以轻松地将语音识别和文本生成功能集成到他们的应用程序中。

重磅！阿里开源自研语音识别模型DFSMN，准确率高达96.04%

阿里技术

06-08

3925

阿里妹导读：近日，阿里巴巴达摩院机器智能实验室开源了新一代语音识别模型DFSMN，将全球语音识别准确率纪录提高至96.04%（这一数据测试基于世界最大的免费语音识别数据库...

OpenAI 开源语音识别模型 Whisper 初体验

天健行以自强不息，地势坤以厚德载物。

10-25

1万+

Whisper 是一个自动语音识别（ASR，Automatic Speech Recognition）系统，OpenAI 通过从网络上收集了 68 万小时的多语言（98 种语言）和多任务（multitask）监督数据对 Whisper 进行了训练。OpenAI 认为使用这样一个庞大而多样的数据集，可以提高对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper 还能实现多种语言的转录，以及将这些语言翻译成英语。

语音识别的一些开源项目整理

qingfengxd1的博客

11-28

7849

1、语音识别主流工具包（1）ESPNET 推荐指数：★★★★★ star数量：4.4k 工具特点：支持多个语音任务，支持多个ASR端到端系统，当前最活跃的语音开源社区，是第三代端到端ASR系统的典型代表。链接：https://github.com/espnet/espnet （2）kaldi 推荐指数：★★★★☆ start数量：11k 工具特点：基于C++开发，工具丰富，2012-2018年最活跃的开源社区，是第二代神经网络ASR系统的典型代表。链接：https://githu.

阿里开源语音大模型：SenseVoice 识别，语音识别效果和性能强于 Whisper，还能检测掌声、笑声、咳嗽等！

强化学习曾小健

07-06

1万+

语音识别技术在人工智能（AI）领域扮演着至关重要的角色，它不仅是人机交互的基石，也是推动智能系统发展的关键驱动力。：在医疗领域，语音识别可以帮助医生在诊断过程中记录患者信息，减少手动输入的时间，同时也可以辅助听力受损的患者与医疗人员沟通。拥有完善的服务部署流程，能够处理多并发请求，并且支持多种客户端语言，包括 Python、C++、Java 和 C# 等。：通过语音识别，用户可以与智能设备进行自然语言交流，无需手动输入，这极大地提升了用户体验的便捷性和直观性。能够识别音频中的情感，比如，积极和消极等。

开源语音识别软件有哪些？

weixin_42584507的博客

12-30

513

开源语音识别软件有很多种, 下面列举几种常见的: Kaldi: 是一种用于语音识别的开源工具包, 支持多种语言, 并且在处理大规模语料库方面有较好的表现. HTK: 是一个用于语音识别、语音合成和语音处理的开源工具包, 支持多种语言. Julius: 是一个用于语音识别的开源软件, 支持日语和英语. Sphinx: 是一个用于语音识别的开源工具包, 支持多种语言. CMUCLMTK: 是...

如何基于开源模型实现语音识别

伪程序员编程小站

10-12

732

要使用Python语言开发一个语音识别小程序，可以使用whisper模型（https://github.com/snakers4/whisper）来实现。这只是一个简单的示例，你可以根据自己的需求进行更进一步的处理和优化。指定要识别的音频文件路径。库，并通过命令行参数。