音频转录总结
概述
在智能产品的开发过程中,可能会遇到需要语音输入并获取语音文字内容的场景,例如,从设备端通过蓝牙通道传输音频至 App 端做语音内容处理,或是直接使用 App 收音做语音内容处理。
涂鸦 AI 音频转录总结方案集成了多种 AI 模型,开发者可以通过简单易用的 API,实现在涂鸦面板小程序中,通过 App 收声将音频转换为文字转写并总结音频内容。
应用场景
-
AI耳机:智能耳机产品通过耳机将音频数据传输到App上,并通过App的ASR能力或云端ASR技术实时处理。识别结果可以即时反馈给用户,实现语音转录为文字的功能。此外,依托大模型技术,可以进一步总结转换后的文字内容,实时进行翻译,并通过耳机提供给用户。这不仅提升了用户的使用体验,还能够满足多语言交流的需求。
-
AI会议记录卡:在会议场景中,未能及时形成会议纪要常常影响后续工作的推进。涂鸦AI音频转录总结方案能够与涂鸦会议纪要功能结合,将音频内容实时总结并生成详细的会议纪要。这一解决方案有效地简化了会议记录过程,帮助用户节省时间与精力,为顺利推进后续工作提供了有力支持。
AI 智能体
AI 智能体是一种能自主感知环境、分析信息、制定决策、并执行动作的智能程序或系统。它类似于 “虚拟大脑”,能够通过传感器或数据输入理解周围状态,利用算法(如规则、学习模型)处理信息,最终驱动设备或输出结果完成任务。
智能体开发平台
智能体开发平台集成了多种语言模型,旨在为用户提供高效而灵活的智能体管理功能。用户可以通过配置和调试,轻松部署和运行智能体相关应用。
产品 AI 功能开发
为了助力开发者高效实现 AI 应用的落地,涂鸦开发者平台提供了多样化的支持,包括适用于不同品类的标准化 AI 功能、丰富的智能体模板、以及便捷的面板投放工具,从多个维度全面保障产品的 AI 应用快速落地。了解更多详情,请参考 产品 AI 功能开发。
如需了解更多关于 AI 能力的内容,请联系您的项目经理或提交工单咨询。
前置依赖
该AI应用场景解决方案可应用于
- AI 硬件开发: 在AI硬件开发中, 您的设备需要透过涂鸦提供的标准协议和AI专用数据通道, 将音频数据传送到App上, 才能使用该方案的能力, 涂鸦提供了对应的软硬件协议和数据通道。
如需了解更多关于AI音频数据通道和协议的对接内容,请联系您的项目经理或提交工单咨询。
- AI 智能应用: 如果您需要开发的是产品是一款软件应用产品, 您可直接透过本方案完成自主开发, 无需使用数据协议和数据通道即可完成。
能力集
API
上传音频文件并开始转录
请求云存储授权 Token
- 含义:获取文件上传所需的云存储 URL、Header、Key 等信息。
- 接口详情:getAIAudioTranscriptionStorageConfig
发起录音文件转录任务
- 含义:确认录音文件已成功上传至云存储后,请求发起录音文件转录任务。
- 接口详情:startAIAudioTranscriptionTask
请求录音转录任务的状态
- 含义:发起录音文件转录任务成功后,请求查询录音转录任务的状态。
- 接口详情:getAIAudioTranscriptionStatus
获取转录总结结果
请求录音文件转录文本
- 含义:查询到录音转录任务执行完成后,请求获取录音转录文本。
- 接口详情:getAIAudioTranscriptionSttText
请求录音文件总结文本
- 含义:查询到录音转录任务执行完成后,请求获取录音总结文本。
- 接口详情:getAIAudioTranscriptionSummary
总结分享
发起录音文件总结信息的分享
- 含义:查询到录音转录任务执行完成后,请求发起录音总结文件分享链接的生成。
- 接口详情:startAIAudioTranscriptionShare
获取录音文件总结信息的分享链接
- 含义:发起录音文件总结信息的分享后,查询获取录音总结文件分享链接。
- 接口详情:getAIAudioTranscriptionShareLink
教程
基础入门开发
关于如何入门小程序面板开发,如果您是第一次接触小程序,请参考本教程开始入手 详情。
AI录音转写
关于如何开发 AI 录音转写总结面板小程序,请参考 详情。
关键依赖模块
为了能够让开发者实现具有良好交互体验的 AI 音频转录功能面板,涂鸦封装了以下组件能力:
-
@ray-js/mini-app-mark-down
:业务层直接调用,提供了在面板小程序内直接渲染 Markdown 文本的能力。 -
@ray-js/inner-audio-player
:业务层直接调用,封装了 Kit 音频播放能力,开发者可以忽略具体 Kit 能力调用过程,只需要关注交互本身的逻辑。 -
@ray-js/recording-amplitude-animation
:业务层直接调用,实时音波动画,开发者可以通过使用 Kit 录音能力解析实时音波数据并渲染动画。
项目模版
概述
项目模板是为了降低开发者搭建项目的难度,整理了常见品类和常见能力并对外提供的相应的项目源码。
模版主要涵盖功能
首页:
- 录音功能
- 音频播放功能
- 音频文件 AI 转录功能
- AI 转录总结结果展示功能
- AI 总结分享功能
模块集
录音
功能介绍
使用 Kit 录音能力,通过涂鸦 App 录制采集音频。录音文件可以使用音频播放器组件播放预览。
交互流程
面板面板录音开始录音结束录音,保存临时录音文件
注意事项
直接使用 Kit 录音能力得到的录音文件是临时文件,如有需要,请自行实现文件的存储。
上传文件
功能介绍
上传录音文件至云存储,为后续 AI 转录的前置步骤。
交互流程
首先,通过 AI 音频转录 API 中的请求云存储授权 Token 来获取上传云存储所需的数据,然后使用 Kit 上传文件能力,上传音频至云存储。
发起转录任务
功能介绍
录音文件上传成功后,请求云端发起录音转录任务。
交互流程
请求转录任务状态
功能介绍
- 发起轮询请求,获取转录任务状态。
- 待任务状态返回已完成后,停止轮询。
交互流程
获取转录和总结结果
功能介绍
轮询获取到转录任务成功后,分别请求获取转录和总结结果。
交互流程
总结分享
功能介绍
- 轮询获取到转录任务成功后,请求发起总结文本分享链接的生成,并轮询获取分享链接。
- 获取到分享链接后,使用Kit分享能力分享总结文件。