
ASR
文章平均质量分 71
Luke Ewin
Java爱好者,喜欢写博客,喜欢录制视频分享在B站,喜欢运动。
展开
-
CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
这篇文章主要讲解如何在生产环境的CentOS7.9中部署一套实时语音识别接口供其它项目调用,可以解决在内网中部署实时语音识别接口问题。原创 2025-05-10 18:49:11 · 768 阅读 · 0 评论 -
SenseVoice模型微调 | 如何提升语音识别在特定领域内识别的准确率
无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。原创 2025-04-19 06:01:58 · 389 阅读 · 0 评论 -
一个基于OpenAI Whisper开发的音视频字幕文件生成工具
该工具可以把音视频转写为文字内容和包含时间戳的srt字幕文件,可以用于生成视频字幕文件,适用于自媒体制作视频字幕。原创 2025-04-15 04:42:14 · 1325 阅读 · 0 评论 -
解决SenseVoice识别专业名词不准问题 | Paraformer和SenseVoice模型训练
这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。原创 2025-04-12 05:51:24 · 393 阅读 · 0 评论 -
部署docker版本的FunASR
这是阿里开源的ASR模型,支持实时语音识别,可以用于外呼系统,智能呼叫中心系统,对通话录音进行实时转写。可用于在线会议字幕实时生成,直播实时字幕生成。原创 2025-04-12 05:35:56 · 697 阅读 · 0 评论 -
Paraformer和SenseVoice模型训练
针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。原创 2025-04-04 06:34:04 · 497 阅读 · 0 评论 -
根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目
基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。原创 2025-02-22 23:06:15 · 2488 阅读 · 0 评论 -
funasr训练模型报错TypeError: device.__init__() missing 1 required positional argument: ‘device‘解决方法
报错TypeError: device.init() missing 1 required positional argument: 'device’解决方法原创 2025-02-11 15:58:43 · 597 阅读 · 0 评论 -
解决安装pynini和WeTextProcessing报错问题
这篇文章主要记录自己如何解决pynini和WeTextProcessing依赖报错问题原创 2025-01-01 05:37:30 · 4255 阅读 · 1 评论 -
基于3D-Speaker进行区分说话人项目搭建过程报错记录 | 通话录音说话人区分以及语音识别 | 声纹识别以及语音识别 | pyannote-audio
本篇文章主要讲述使用3d-speaker进行说话人区分,以及如何优化目前没法区分说话人的情况,通过vad算法对音频进行片段化计算每个片段的声纹特征值向量,然后通过无监督聚类算法实现声纹特征值相似的音频片段聚类。原创 2024-12-25 02:19:21 · 1186 阅读 · 0 评论 -
开源的说话人分离项目 | 可以对指定的音频分离不同的说话人 | 通话录音中分离不同的说话人
这个程序适合个人 PC 端使用,如果需要服务端接口,支持多路并发,支持大规模集群部署,欢迎联系我。安装 torch,需要根据你电脑情况安装不同的版本,具体可以到 torch 中复制命令安装。安装 ffmpeg,可以到 ffmpeg 官方地址中下载可执行程序,配置环境变量。个人技术博客2:https://blog.lukeewin.top。个人技术博客1:https://lukeewin.top。如果使用 GPU 来运行,需要安装好 CUDA。本地可运行的说话人拆分 | 说话人分离。原创 2024-11-15 00:20:11 · 1520 阅读 · 0 评论 -
训练实时语音识别Paraformer模型
最近有一位研二的学生添加我的微信,付费让我给她训练模型。市面上的语音识别模型基本上都是通用识别模型,对于特定领域的识别字错率太高了。比如专门针对航空领域的语音识别就不尽如意,因为在航空领域中有一些航空的专有名词,训练模型的时候未必训练到,并且航空领域中的读数字的读音也和我们日常中的不一样,所以我们想要让模型识别的字错率更低,那么就很有必要对市面上开源的模型进行训练。这里由那位研究生提供了条音频数据,音频采样率是。数据分为训练集和验证集,这里使用的数据作为验证集,也就是使用条数据作为验证集。数据的格式要求如下原创 2024-11-10 20:05:35 · 1731 阅读 · 4 评论 -
如何把huggingface格式的whisper模型转为openai格式
openai目前提供的模型有共11种,其中en结尾的是英语模型,由于whisper模型的微调开源的,在中可以找到各种微调后的模型,比如针对识别泰语优化的模型,我们可以使用格式的模型来使用whisper进行语音识别,那如果我想要在原先已经写好的基于openai格式的whisper模型进行语音识别,那么我们就需要想办法把格式的whisper模型转为openai格式,这也是本篇文章要讲的内容。原创 2024-08-21 02:28:36 · 841 阅读 · 1 评论