基于google云平台实现音频转文字_google cloud speech-to-text-优快云博客

本文链接：https://blog.youkuaiyun.com/michaeluo/article/details/82849520

本文详细介绍如何利用谷歌云平台的speech-to-text API将音频文件转换为文字，涵盖注册账号、新建工程、生成密钥、启用API、音频文件准备、上传文件及调用API等步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、注册账号

1. 打开https://console.cloud.google.com
2. 首先要注册google账号，有gmail就可以直接用；
3. 使用云平台服务需要填写一些信息，其中绑定信用卡是关键，最好使用VISA卡。当然google的说法是确定非机器人操作，并不会扣款;

二、新建工程

初次进入时会要求新建工程，如无特殊要求使用默认名称也可以。

三、生成密钥

在调用云平台API时要有身份认证，依据便是密钥。密钥生成以后记得复制下来，后面调用API时要用到。

四、启用API

google云平台包含了相当多的服务，而我们本次的目的是实现将音频识别为文字，所以需要查找并添加speech recognition方法。

在左侧菜单的“API和服务”下找到“库”，并输入“speech recognition"。
点击进入后选择启用即可。

五、准备音频文件

speech-to-text API对音频文件的编码格式有具体的要求。

无论是录音还是从影视文件中分离音频出来，都必须按照上述格式选取一种进行编码。

我使用的是开源工具ffmpeg进行音频处理，示例如下：

ffmpeg -i one.mp3 -ss 00:03:00 -t 30 -ac 1 -ar 16000 -f flac one4.flac

命令行解释：

-ss：要处理的起始位置，示例中表示从第3分钟开始处理；

-t：要处理的时长，示例中表示处理30秒的内容；

-ac：单声道mono设置；

-ar：采样率为16000

-f：文件封装格式为flac

参考网址：https://cloud.google.com/speech-to-text/docs/encoding#audio-encodings

六、开通存储并上传文件

文件处理好之后便可以通过预先上传到google云存储上再进行处理。打开左侧“存储”->“浏览器”，选择创建存储分区，会要求输入一个不可重复的名称。创建成功以后就可以上传文件了。上传以后一个重要的步骤便是要设置文件可以公开访问了，否则音频到文本的转换会失败，报访问权限受限错误。

在右侧选择“修改权限”项；

2. 点击“添加一项”，名称设置为“allUsers"，访问权限为读取者。

七、调用API完成转换工作

首先编辑一个配置json文件，内容如下：

{
  "config":
  {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"cmn-Hans-CN"
  },

  "audio":
  {
    "uri":"gs://audio_migu/one4.flac"
  }
}

2. 使用curl命令行进行API调用的工作，示例如下：

curl -H "Content-Type: application/json" -d @config.json "https://speech.googleapis.com/v1/speech:recognize?key=AIzaSyA7baQsAp"

注意：key值便是第三步生成的密钥值。

等待一段时间后会有结果返回，我是从一段影视文件中截取的30秒内容，从结果来看并不理想，不过也可能是时长不够，仅供参考：

{
  "results": [
    {
      "alternatives": [
        {
          "transcript": "柔然发来西文称陛下是符串位同室操戈正山东各方陶华碧想和任泉岗工人背叛",
          "confidence": 0.94101095
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "大成功显然",
          "confidence": 0.74435216
        }
      ]
    },
    {
      "alternatives": [
        {
          "transcript": "电邮他们一个动力臂下原列王子后来进重我大会想来这次对比一下只执行Ruby下能释放高阳王让高阳王对只小雨大雨",
          "confidence": 0.91948324
        }
      ]
    }
  ]
}

参考网址：https://cloud.google.com/speech-to-text/docs/basics