whisper-node项目技术文档-优快云博客

whisper-node项目技术文档

安装指南

第一步：添加依赖

在您的Node.js项目中，通过npm命令行工具执行以下命令来添加whisper-node作为依赖项：

npm install whisper-node

第二步（可选）：下载模型

为了使用whisper-node进行音频转录，您可以选择性地下载OpenAI的Whisper模型。通过运行以下命令来完成这一步：

npx whisper-node download

Windows用户特别注意：在Windows上，您需要先安装make命令。可以从此处获取：GNU Make for Windows。

项目使用说明

基本使用

一旦安装完毕，您可以通过简单的JavaScript代码片段开始使用whisper-node对音频文件进行转录：

import whisper from 'whisper-node';

// 假设我们有一个名为sample.wav的音频文件
const filePath = "example/sample.wav";
const transcript = await whisper(filePath);

console.log(transcript); // 输出包含转录结果的对象数组

每个转录对象包含开始时间戳、结束时间戳以及对应的语音文本。

高级选项

您可以传递一个配置对象以自定义转录过程，例如指定模型、输出格式等：

const options = {
  modelName: "base.en", // 可以选择不同的模型大小，默认为"base.en"
  whisperOptions: {
    language: 'auto', // 自动检测语言，默认设置
    gen_file_txt: false, // 是否生成.txt文件
    gen_file_subtitle: false, // 是否生成.srt字幕文件
    gen_file_vtt: false, // 是否生成.vtt文件
    word_timestamps: true // 是否为每个单词提供时间戳，默认false
  }
};

const transcriptWithOptions = await whisper(filePath, options);

API使用文档

whisper-node提供了灵活的API接口，允许用户控制音频处理的各个方面：

核心函数：whisper(audioFilePath, [options])
- audioFilePath: 必须，音频文件的路径。
- [options]: 可选，包含模型名、输出格式选项等。
模型选项：
- modelName: 指定模型版本，默认为"base.en"。
- modelPath: 指定模型存储的自定义路径（不能与modelName一起使用）。
转录音频时的时间戳与输出格式：
- 可以通过whisperOptions控制是否生成额外的文本、字幕或VTT文件，以及是否对每个单词加时间戳。
音频格式要求：输入音频文件应为16kHz采样率的.wav格式。对于其他格式的转换，建议使用外部工具如FFmpeg。

项目安装方式

项目的安装分为两部分：依赖安装和（可选的）模型下载。以上在“安装指南”中已详细介绍，确保遵循上述步骤即可成功搭建环境并开始使用whisper-node进行音频转录分析。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考