whisper-node项目技术文档
安装指南
第一步:添加依赖
在您的Node.js项目中,通过npm命令行工具执行以下命令来添加whisper-node
作为依赖项:
npm install whisper-node
第二步(可选):下载模型
为了使用whisper-node进行音频转录,您可以选择性地下载OpenAI的Whisper模型。通过运行以下命令来完成这一步:
npx whisper-node download
Windows用户特别注意:在Windows上,您需要先安装make
命令。可以从此处获取:GNU Make for Windows。
项目使用说明
基本使用
一旦安装完毕,您可以通过简单的JavaScript代码片段开始使用whisper-node对音频文件进行转录:
import whisper from 'whisper-node';
// 假设我们有一个名为sample.wav的音频文件
const filePath = "example/sample.wav";
const transcript = await whisper(filePath);
console.log(transcript); // 输出包含转录结果的对象数组
每个转录对象包含开始时间戳、结束时间戳以及对应的语音文本。
高级选项
您可以传递一个配置对象以自定义转录过程,例如指定模型、输出格式等:
const options = {
modelName: "base.en", // 可以选择不同的模型大小,默认为"base.en"
whisperOptions: {
language: 'auto', // 自动检测语言,默认设置
gen_file_txt: false, // 是否生成.txt文件
gen_file_subtitle: false, // 是否生成.srt字幕文件
gen_file_vtt: false, // 是否生成.vtt文件
word_timestamps: true // 是否为每个单词提供时间戳,默认false
}
};
const transcriptWithOptions = await whisper(filePath, options);
API使用文档
whisper-node提供了灵活的API接口,允许用户控制音频处理的各个方面:
-
核心函数:
whisper(audioFilePath, [options])
audioFilePath
: 必须,音频文件的路径。[options]
: 可选,包含模型名、输出格式选项等。
-
模型选项:
modelName
: 指定模型版本,默认为"base.en"。modelPath
: 指定模型存储的自定义路径(不能与modelName一起使用)。
-
转录音频时的时间戳与输出格式:
- 可以通过
whisperOptions
控制是否生成额外的文本、字幕或VTT文件,以及是否对每个单词加时间戳。
- 可以通过
-
音频格式要求:输入音频文件应为16kHz采样率的.wav格式。对于其他格式的转换,建议使用外部工具如FFmpeg。
项目安装方式
项目的安装分为两部分:依赖安装和(可选的)模型下载。以上在“安装指南”中已详细介绍,确保遵循上述步骤即可成功搭建环境并开始使用whisper-node进行音频转录分析。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考