前言
Whisper-large-v3 是 OpenAI 推出的高性能多语言语音识别模型,基于 Transformer 架构,支持超过 99 种语言 的语音到文本转换和翻译,具备出色的准确率和鲁棒性。该模型适用于复杂音频场景,如噪声环境、不同口音和长音频转录,广泛用于字幕生成、语音助手和跨语言沟通等任务。
本文旨在本地电脑环境上实现Whisper-large-v3模型的部署和运行,较为简单
一、AutoDL
首先l浏览器搜索,点开AutoDL官网,AutoDL官网位置
申请/登录账号充好钱,选择自己需要的服务器。
推荐使用GPU:NVDIA RTX 3080/3090/4090(24GB显存,高性能多核CPU,内存≥32GB)
可以直接选择“基础镜像”,常用的miniconda等环境都是有的;如果是要用github上的项目,可以在“算法镜像”部分搜索,选择合适的镜像环境。 “我的镜像”适用于之前已经租过AutoDL上的服务器,因为目前那台机器没有空闲GPU了,所以将那台机器上的数据生成自己的镜像,然后就可以选择转移到这