比 faster-whisper 至少快10倍的音视频转换文字

最新推荐文章于 2025-04-01 09:29:30 发布

TOo斌斌很有礼oOT

最新推荐文章于 2025-04-01 09:29:30 发布

阅读量1.5k

点赞数 15

分类专栏： AIGC python 文章标签： whisper 音视频

本文链接：https://blog.youkuaiyun.com/ltbweber/article/details/140710042

版权

python 同时被 2 个专栏收录

14 篇文章

订阅专栏

AIGC

12 篇文章

订阅专栏

背景介绍

前两天我自己玩玩搞搞一个音频转文字服务，基于 faster-whisper，本想着这个已经是很快的了，没想到还有比它更快的，今天就来介绍使用一下。

FunClip，是阿里巴巴推出的一个智能视频剪辑工具，它结合了人工智能技术，特别是语音识别和自然语言处理，提供了一种全新的视频剪辑体验。通过集成阿里巴巴通义实验室的 FunASR Paraformer 系列模型，FunClip 能够对视频中的语音内容进行自动识别，并根据识别结果进行视频剪辑。

我们就是利用它的语音识别和自然语言处理的一部分功能，快速实现对音频，以及视频进行文字转录

注意：目前仅支持中文，后续有可能会迭代加入英文或者其他更多语言

GitHub项目地址：https://github.com/alibaba-damo-academy/FunClip

功能特点

1：语音识别与转录：FunClip 利用 FunASR Paraformer 系列模型进行视频语音的自动识别，并将语音转换为文字，支持热词定制化和说话人识别，提升了特定词汇的识别准确率，并能自动生成 SRT 字幕文件。
2：视频剪辑：用户可以根据识别结果中的文本片段或说话人，快速裁剪出所需视频片段。FunClip 支持多段剪辑，并提供了灵活的编辑能力，用户可以在剪辑过程中自由组合多个视频片段。
3：用户界面：FunClip 提供了简洁明了的用户界面，操作简单易懂，支持在服务端搭建服务，并通过浏览器进行视频剪辑。
4：部署方式：FunClip 支持本地部署，用户可以通过简单的命令行操作进行安装和启动。

本地部署

1：利用 git 或者直接下载代码到本地，推荐使用git

	git clone https://github.com/alibaba-damo-academy/FunClip.git

2：安装依赖，需要本地有python环境，推荐python>=3.10

	cd FunClip
	pip install -r ./requirements.txt

3：启动项目服务，会自动下载所需模型以及依赖，集成了操作页面，可以访问返回的地址链接进行浏览器访问

	python funclip/launch.py

4：不依赖界面，使用命令行进行操作 -------------- 识别语音

	python funclip/videoclipper.py --stage 1 --file /data/sese.mp4 --output_dir ./output
	---------------------------------------------
	--file：你要识别的音视频文件目录地址
	--output_dir：生成的srt文件放到的文件夹