AI手机-手机SIM卡通话内容的ASR识别和文字提取-免费ASR方案

PaddlePaddle-v3.3

PaddlePaddle-v3.3

PaddlePaddle

PaddlePaddle是由百度自主研发的深度学习平台,自 2016 年开源以来已广泛应用于工业界。作为一个全面的深度学习生态系统,它提供了核心框架、模型库、开发工具包等完整解决方案。目前已服务超过 2185 万开发者,67 万企业,产生了 110 万个模型

AI手机-手机SIM卡通话内容

ASR识别和文字提取-(四、免费ASR方案)

本次预研的选型主要还是走开源库的线路,包括三个部分:

  1. 调用的应用程序入口和依赖库是否开源;
  2. 是否有可用、免费且识别率高的成熟模型库;
  3. 如果对效果不满意,是否能够自己训练或补充训练模型库。

针对ASR模型的能力,主要还是围绕文字识别、标点、语气、情绪、接口识别速度等方向来进行,但主要将文字识别功能的准确率和识别效率作为主要衡量指标。

由前文预研中,我们列举的内容:【ASR方案列表中常见有AWSMiscrosoft、Skype、Facebook等,以及开源的cmusphinxpocketsphinx-android、vosk-android等;国内常用的有腾讯、阿里、百度、小米、搜狗、科大讯飞等、以及开源的百度飞浆PaddleSpeech、阿里云FunASR等ASR算法和模型。

按照从知乎FunASR中搜索的描述,不同模型和算法之间,在识别精度、推理效率、对长音频的支持,以及断句、标点符号标注等方面会存在一些差异,仅供参考。

引用地址:https://zhuanlan.zhihu.com/p/642363371

方案对比与选型

本篇章的编写,其实是为了智能拨号器中对通话语音进行实时语音质检,防范被非法用户利用进行诈骗、暴力催收、频繁的电话骚扰等非法用途而规划的功能。

因此,根据智能拨号器原有的架构扩展,关于通话语音ASR识别和语音质检功能的引入,就有以下几个考量侧重点:

  1. ASR部分我们可以交给线路运营商平台自己把控,也可以自己单独实现;但最好自己有一套并行工作做为备选方案。
  2. 在识别时效上可以选用非实时质检甚至是抽检的方案,但最好是实时全检;拨号器平台将只收集通话文字内容或通话摘要,不收集和存档通话语音数据。
  3. 在数据传输上,如果客户和通话内容归属于线路运营商,智能拨号器做为中间节点,理论上不应该将通话内容传输到第三方平台,但可以自己搭建ASR服务器高并发请求进行检测并反馈结果,也可以选择在终端进行ASR识别和提取。
  4. 应该要选免费的方案,即新的功能引入不应增加线路成本。识别过程应该是并行运算,即ASR识别不能影响线路的通话效果。

经过综合的衡量与初步评估,本次选出下述4个模型来进行筛选和对比,仅供参考:

编号

算法-模型

描述

01

FunASR -- 离线-tiny模型

离线-tiny,社区强大更新快

02

讯飞AIUI

讯飞AIUI的接口较为丰富

03

百度飞浆PaddleSpeech

飞浆的自定义模型库较多

04

vosk-android

vosk-model-small-cn-0.22,国外产品的对比

vosk-android

vosk开源模型的GitHub地址:

https://github.com/alphacep/vosk-api

vosk的中文模型只有42M和1.3G两种大小,模型下载地址如下:

VOSK Models

FunASR

阿里巴巴团队的FunASR相关模型和文档可参考GitHub地址:

https://github.com/alibaba-damo-academy/FunASR/blob/main/docs/model_zoo/modelscope_models.md

其所有模型库的下载地址可参考:

魔搭社区

开源协议:Apache License 2.0

预研过程中,我们参考了“FunASR安卓端侧离线版本2pass全模式”的开源库fawasr,GitHub地址:

https://github.com/SoonSYJ/fawasr

讯飞AIUI

讯飞AIUI的SDK下载地址可参考:

SDK下载 - 科大讯飞api接口 - 讯飞开放平台

PaddleSpeech

百度飞浆语音方向的开源模型库PaddleSpeech的下载地址可参考:

https://github.com/PaddlePaddle/PaddleSpeech

总结

一顿操作下来,发现还是PaddlePaddle和FunASR对开源社区的贡献最大,网上随便一搜索,都能搜到很多前辈关于这两个方案做的示例应用的步骤和经验。此处简单汇总一下对上述算法和模型库的使用体验:

编号

算法-模型

评价

01

vosk-android

垃圾,识别率是个渣,模型库贼大

02

AIUI

不建议,它就没打算为开源社区出一点力

03

FunASR

识别效果尚可,迭代快

04

PaddleSpeech

声势挺猛的,文档比较齐全,没找到离线ASR的用法

另外,在具体使用上,这些模型库在本次需求方面还存在以下不足与缺陷:

  1. ASR识别的时间基本都为语音时长的二分之一,即一段话说话时长为20s、传入了所有语音数据后需要等待10s它才能返回识别后的文字。不利于实时结果响应。
  2. 全双工通话或双轨录音时,需要手动拆分为两个ASR模型实例,占用了双倍的运行内存(感觉它们都是为了整段语料文件服务一样,考虑了并发但为考虑实时场景如何减小内存占用)。


上一篇:AI手机-手机SIM卡通话内容的ASR识别和文字提取-ASR指标差异(在线、实时)

下一篇:没有了。

您可能感兴趣的与本文相关的镜像

PaddlePaddle-v3.3

PaddlePaddle-v3.3

PaddlePaddle

PaddlePaddle是由百度自主研发的深度学习平台,自 2016 年开源以来已广泛应用于工业界。作为一个全面的深度学习生态系统,它提供了核心框架、模型库、开发工具包等完整解决方案。目前已服务超过 2185 万开发者,67 万企业,产生了 110 万个模型

<think>我们正在寻找可用于训练的小说-动画配对公开数据集。根据用户之前的兴趣(AI自动生成动画,特别是文本驱动动画),我们需要推荐具有文本描述(小说片段)对应动画序列(如角色动作、场景等)的数据集。结合计算机视觉图形学领域的研究现状,以下是几个公开可用的相关数据集:###一、主流数据集推荐####1.**HumanML3D**[^1]-**内容**:-超过15,000个文本描述对应3D人体运动序列-文本描述示例:"一个人慢慢走向桌子并坐下"-运动数据:SMPL格式3D关节旋转序列(60fps)-**特点**:-支持细粒度动作生成(如"跳跃后转身")-提供文本-运动语义相似度评估指标-**获取方式**:[GitHub仓库](https://github.com/EricGuo5513/HumanML3D)|需签署学术使用协议####2.**BABEL**[^2]-**内容**:-密集标注的动作序列(每段动作对应多个文本标签)-示例标签:"举起左手-停顿-放下"(带时间戳)-**特点**:-支持长时序动作分解(适用于小说段落级生成)-包含复杂动作组合(如武术、舞蹈)-**获取方式**:[项目主页](https://babel.is.tue.mpg.de/)|需通过Ethics审查####3.**AniCaption**(日本动画数据集)[^3]-**内容**:-10,000+动画片段(来自200+部动画)-人工标注的日/英双语描述(含情感标注)-示例:"角色愤怒地挥剑砍向敌人(持续2.3秒)"-**特点**:-包含二次元风格动作与特效-支持情感驱动动画生成研究-**获取方式**:联系[东京大学研究团队](mailto:anicaption@c.t.u-tokyo.ac.jp)申请---###二、替代方案(无直接配对时)若需小说级长文本配对,可组合使用以下资源:1.**文本来源**:-BookCorpus(公开小说文本库)-Gutenberg项目(5万+公版书)2.**动作库合成**:-用Mixamo自动绑定动作到角色-通过Blender脚本生成基础动画序列3.**构建流程**:```mermaidgraphLRA[小说分段]-->B{关键动作提取}B-->C[检索Mixamo动作库]C-->D[生成FBX动画]D-->E[配对存储]```---###三、数据增强技巧为提升训练效果,建议:-**文本扩展**:用LLM(如GPT-4)扩充描述变体$$\text{原句}\xrightarrow{\text{LLM}}\{\text{同义句}_1,\text{同义句}_2,...\}$$-**运动增强**:-随机时域缩放(改变动作速度)-空间扰动($\Delta\theta\sim\mathcal{N}(0,0.1)$旋转噪声)>**优先建议**:从HumanML3D起步,因其提供开箱即用的文本-运动对齐数据,且社区支持完善[^1]。---§§相关问题§§1.如何评估文本到动画生成模型的质量?2.小说中多角色交互场景的数据集有哪些?3.如何解决低资源语言的动画生成数据不足问题?4.能否用扩散模型直接生成带物理约束的动画?###引用说明[^1]:HumanML3D数据集提供细粒度文本-运动配对,适用于训练基础生成模型。[^2]:BABEL支持动作的时序分解,适合长文本动画生成。[^3]:AniCaption包含动画风格标注,对二次元创作有独特价值。</think>以下是针对小说-动画配对训练数据的专业推荐,结合当前研究进展公开资源: ### 一、核心公开数据集 1. **HumanML3D** [推荐首选] - **内容**: - 14,616个文本描述与3D人体运动序列配对 - 文本示例:"一个人慢慢走向桌子并坐下" - 动画数据:SMPL格式3D关节旋转序列(60fps) - **特点**: - 支持细粒度动作生成(如"跳跃后转身") - 提供文本-运动语义相似度评估指标 - **获取**: [GitHub仓库](https://github.com/EricGuo5513/HumanML3D) | 需签署学术使用协议 2. **BABEL** - **内容**: - 密集标注的动作序列(每段动作含多文本标签) - 示例标签:"举起左手-停顿-放下"(带时间戳) - **特点**: - 支持长时序动作分解(适合小说段落级生成) - 包含复杂动作组合(如武术、舞蹈) - **获取**: [项目主页](https://babel.is.tue.mpg.de/) | 需通过Ethics审查 3. **AMASS** - **内容**: - 大规模整合数据集(包含CMU、KIT等11个源) - 超40小时3D运动数据 - **适配方案**: - 可结合GPT-4生成伪标签文本描述 $$ \text{运动序列} \xrightarrow{\text{LLM}} \text{小说式描述} $$ - **获取**: [官网](https://amass.is.tue.mpg.de/) --- ### 二、替代方案(无直接配对时) #### 1. **文本-视频数据集 + 动作提取** | 数据集 | 内容规模 | 适配方法 | |--------------|-------------------|-----------------------------| | HowTo100M | 1.2亿视频文本对 | 用Pose Estimator提取骨骼动画 | | YouCook2 | 2,000+烹饪教程 | 结合Verb-Noun动作解析[^1] | | TVR | 21.8万影视片段 | ASR字幕转动作指令 | #### 2. **合成数据生成** ```python # 示例:Blender+GPT合成流程 import blender_scripting as bs from gpt4_synopsis import generate_scene novel = "骑士在城堡中巡逻" # 小说输入 actions = generate_scene(novel) # GPT解析动作序列 bs.render_motion(actions, output_format="FBX") # 生成动画 ``` --- ### 三、领域专用资源 1. **动画风格数据**: - **AnimeSynth**:日本动画风格数据集(非公开,需申请) - **构建方案**:爬取Crunchyroll字幕 + 提取关键帧动作 2. **物理增强数据**: - 用PyBullet生成物理合理运动: $$ \min_{a_t} \sum_{t=1}^T \| \text{文本目标} - \phi(s_t) \| + \lambda \mathcal{L}_{\text{physics}} $$ [参考代码](https://github.com/bulletphysics/bullet3) --- ### 四、数据增强技巧 1. **文本扩展**: - 使用LLM生成描述变体(如"奔跑→快速向前移动") 2. **运动扰动**: - 添加关节噪声 $\theta' = \theta + \epsilon, \epsilon \sim \mathcal{N}(0,0.1)$ 3. **跨模态对齐**: - 采用CLIP损失优化文本-动作空间: $$ \mathcal{L}_{align} = 1 - \frac{\text{CLIP}(t) \cdot \text{CLIP}(m)}{\|\text{CLIP}(t)\| \|\text{CLIP}(m)\|} $$ > **优先建议**:从HumanML3D入门,其标准化格式丰富标注最适合文本驱动动画研究[^1]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

limingade

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值