- 博客(36)
- 收藏
- 关注
原创 SenseVoice-QNN-ONNX模型C++部署
SenseVoiceASR-QNN是一个基于C++实现的实时语音识别系统,使用SenseVoice模型和ONNX Runtime进行推理,支持Qualcomm QNN加速。该系统实现了完整的语音活动检测(VAD)和自动语音识别(ASR)流程,可从音频设备实时采集音频并进行识别。
2025-12-04 14:33:56
679
原创 流式LLM到TTS语音合成如何实现?
LLMSpeaker是一个集成大语言模型(LLM)和语音合成(TTS)技术的流式语音生成系统。它能够实时将LLM生成的文本转换为语音输出,实现类似ChatTTS的流式语音对话体验。
2025-11-24 11:58:02
37
原创 手措智能语音对话系统
一个基于深度学习的智能语音对话系统,具备语音识别(ASR)、自然语言处理(LLM)、语音合成(TTS)和语音活动检测(VAD)功能的完整语音交互解决方案。系统采用多线程架构设计,实现了高效的实时语音对话处理流程。
2025-11-21 11:34:10
23
原创 微软vcpkg包管理工具如何使用?
vcpkg 是微软开发的开源 C/C++ 包管理器,旨在简化 Windows、Linux 和 macOS 上的 C/C++ 库的获取、编译和使用过程。它提供了大量的预编译库,并支持跨平台编译,使得开发者能够轻松地在项目中集成第三方库。
2025-11-14 11:44:17
1145
原创 超级紧凑型支持多语言ONNX(20MB)模型
SpeechTTS 是一个轻量级、高效的文本转语音 (TTS) 系统,基于 SAMBERT-HiFiGAN 架构,优化用于 ONNX 运行时推理。它将原始中文文本转换为自然发音的语音,使用预训练模型导出为 ONNX 格式。该系统利用 KAN-TTS 框架进行语言处理和声学建模,并结合 HiFiGAN 生成高保真波形。
2025-10-10 11:46:41
1020
原创 VibeVoice:前沿长对话文本转语音模型
VibeVoice是一个新颖的框架,旨在从文本生成富有表现力的、长篇的、多说话者的对话音频,例如播客。它解决了传统文本转语音(TTS)系统中的重大挑战,特别是在可扩展性、说话者一致性和自然轮换方面。
2025-09-09 16:17:40
1132
原创 如何使用QNN Htp后端部署SenseVoice模型实现实时语音识别
SenseVoiceASR-QNN 是一个基于高通QNN SDK 2.37.0.250724版本的手动编译语音识别项目,该项目将SenseVoice预编译的QNN ONNX模型使用HTP后端进行部署,实现了高效的语音识别功能。项目支持实时语音检测和识别,适用于边缘计算和嵌入式设备场景。
2025-09-08 16:37:03
769
原创 SenseVoice模型静态导出与QNN编译完整指南
环境准备: 安装必要的依赖和模型文件静态导出: 使用固定输入shape导出ONNX模型QNN编译: 将ONNX模型编译为适配高通硬件的格式部署使用: 在目标设备上部署和运行模型性能优化: 提供优化建议和最佳实践故障排除: 解决常见问题和调试技巧通过遵循本指南,您可以成功地将SenseVoice模型部署到高通硬件平台,充分利用硬件加速能力,实现高效的语音识别功能。
2025-09-02 14:30:04
967
原创 MegaTTS模型实时语音合成&核心算法详解
MegaTTS是一个基于深度学习的多语言文本转语音(TTS)系统,支持中英文双语,具有高自然度和低延迟的特点。系统采用模块化设计,包含以下核心组件,代码修改后支持实时语音合成,以及使用wav进行说话人替换
2025-08-28 15:26:29
947
原创 ChatDo - AI协作平台
ChatDo是一个基于Python Gradio框架开发的AI MCP协作平台,集成了对话系统和图像生成功能,提供了用户认证、对话管理、文件处理和图像生成等功能。
2025-08-22 10:36:18
559
原创 类人脑模型BriLLM介绍(打破传统Transformer架构)
BriLLM ( Brain-inspired Large Language Model )是 上海交通大学 团队研发的 类人脑 大语言模型,于2025年8月发布。该模型突破了传统 Transformer 架构的局限,采用 信号全连接流动 ( SiFu )机制,通过有向图神经网络实现全节点可解释性,支持无限长 n-gram 建模。
2025-08-21 11:57:35
2641
原创 ONNXRUNTIME-CANN部署ONNX模型
这是一个基于华为 CANN(Compute Architecture for Neural Networks)推理引擎的 YOLOv3 目标检测项目。本项目展示了如何使用 ONNX Runtime 和 CANN 执行提供程序在昇腾 AI 处理器上运行 ONNX 模型。
2025-08-20 16:08:27
1344
原创 Dolphin语音识别(包含原模型部署代码,模型导出,模型量化源码)
这是一个基于Dolphin语音识别模型的工程项目,实现了模型推理、ONNX导出和量化优化等功能。本项目支持音频文件的语音识别,并提供了模型优化和部署相关的工具链。
2025-08-19 17:07:57
913
原创 语音识别系统(包含算法源码&模型文件)
WenetASR 是一个基于 WeNet(端到端语音识别工具包)的实时语音识别(ASR)系统,结合了语音活动检测(VAD)功能。该项目旨在提供一个简单、高效的框架,用于从麦克风实时捕获音频,进行语音段检测,并使用预训练的 WeNet 模型进行中文语音识别。它特别适合实时应用场景,如语音助手、会议转录或语音命令系统。
2025-08-13 17:21:13
1263
原创 MeloTTS-ONNX原模型及量化模型推理
ChatTTS 是一个基于 MeloTTS ONNX 实现的文本到语音 (TTS) 系统。它允许用户输入文本并实时生成语音音频,支持中英混合语言合成。该项目利用 ONNX 运行时进行高效推理,并包括音频播放的实用工具。该项目基于针对 ONNX 优化的 MeloTTS 和 OpenVoice Tone Clone 实现。目前,它支持 zh-mix-en(中英混合)语言。
2025-08-11 10:26:01
893
原创 SpeechTTS-ONNX紧凑型TTS模型-高效推理+高实时
修改run.pyaudio = ort_model.ExecInfer(["您的自定义中文文本。"])播放音频:使用进行实时播放。保存音频:添加保存逻辑,例如。
2025-08-07 10:34:46
833
原创 DeepSeek&Qwen ONNX格式部署平台
修改run.py中的messages结构以调整系统提示或历史对话。在中调整生成参数,如top_ptop_k。
2025-07-28 16:28:16
1051
原创 QNN SDK环境搭建-完美解决PF_VALIDATOR失败问题
链接: [https://pan.baidu.com/s/13mmnQ9f9Y2Kdx8BfvfnXOw?pwd=v327) 提取码: v327。–来自百度网盘超级会员v1的分享。
2025-07-22 10:31:09
305
原创 Wav2Vec-ONNX-FP16精度模型手把手教你手动实现CTC解码
步骤1: 初始化模型ort_loader = ORTLoader(model_path, device="cpu") # 或 "cuda:0"# 步骤2: 读取音频文件print(f"音频长度:len。
2025-07-11 09:23:44
699
原创 多GPU训练原理和实现
NCCL: 最适合在多 GPU 环境(特别是 NVIDIA GPU)下进行分布式训练,通常在单机多 GPU 或多节点多 GPU 的训练中使用,性能最佳。Gloo: 提供了跨平台和灵活的分布式通信支持,适合没有 NVIDIA GPU 或没有 NCCL 的环境,是 CPU 和非标准 GPU 环境下的良好选择。MPI: 主要用于高性能计算场景,适合跨节点的 CPU 分布式训练,特别是在大型集群上,虽然复杂但非常强大。关注公众号“CrazyNET”,获取更多资源。
2025-06-29 16:01:56
1047
原创 Text-Generation任务中数据集格式化分
在对话生成任务中,CSV 文件可能包含多列,其中一列是上下文(对话历史或前一句),另一列是模型需要生成的响应。这是最简单的形式,CSV 文件仅包含一个文本列,每行代表一段文本或一句话。适用于大多数生成任务,如语言建模。在更复杂的对话生成任务中,CSV 文件可能包含多轮对话信息,将对话历史和当前轮次的输入分开存储。对于某些生成任务,如情感生成或风格迁移,数据集可能还包含标签信息,表示该文本所属的类别或风格。对于多任务或多标签生成任务,CSV 文件可能包含多列,每列代表一个需要生成的标签或文本。
2025-06-22 09:21:32
947
原创 机器视觉新突破:掌握边缘提取、形态学算子与模板匹配三大核心算法
本文介绍了三种边缘检测算法(Canny、Sobel、Laplacian)及其参数和使用场景,以及形态学运算(腐蚀、膨胀、开运算、闭运算)的应用。还提供了基于直方图匹配和模板匹配的代码实现。Canny检测质量高但参数敏感,Sobel适合一般轮廓检测,Laplacian更精细但易受噪声影响。形态学运算可用于去噪和填充图像特征。模板匹配部分展示了如何计算图像相似度并进行精确匹配。
2025-06-21 16:21:31
384
原创 ResNet18深度残差网络详解
本文详细介绍了ResNet18深度残差网络的核心原理与实现。ResNet通过残差学习和跳跃连接解决了深层网络的梯度消失和退化问题,使训练极深度网络成为可能。文章解析了BasicBlock残差块的结构设计、1×1卷积在跳跃连接中的作用、以及完整的ResNet18网络架构,包括4个残差阶段和特征图尺寸变化。最后提供了模型创建和训练的代码示例,展示如何实际应用ResNet18进行图像分类任务。该网络在CIFAR-10等数据集上表现出色,是计算机视觉领域的重要基础模型。
2025-06-20 16:58:23
1167
原创 NVIDIA驱动基于Linux不同版本的编译安装
本文介绍了在Linux系统上安装NVIDIA显卡驱动的完整步骤:首先从官网获取驱动,安装匹配的内核头文件和编译工具;然后禁用默认的nouveau驱动;接着使用特定参数编译安装NVIDIA驱动,包括DKMS支持;最后通过nvidia-smi命令验证驱动安装成功。整个流程涵盖了从驱动下载到安装验证的关键环节,并提供了详细的命令行操作示例。
2025-06-20 16:14:09
432
原创 机器视觉算法-滤波&特征提取算法
5.ORB:结合了FAST关键点检测和BRIEF描述符,适用于计算资源有限的情况,局部像素灰度变化明显的地方,速度快,计算像素间亮度差异,具有一定的旋转不变性,但不如SIFT具有高区分度,对尺度变化不够稳定。3.SIFT:使用于检测图像中的角,斑点,圆等,对旋转和缩放不敏感,特征稳定,对旋转,尺度变换,亮度保持不变性,对视角变换,噪声也有一定程度的稳定性,但实时性不高,并且对于边缘光滑目标的特征点提取能力较弱。1.颜色,形状,纹理提取:适用于图像项目中的彩色空间分析,如HSV,LAB,灰度等。
2025-06-20 11:13:18
857
1
原创 Net实战:打造你的首个神经网络
应用:图像分类(ResNet)、目标检测(YOLO)、医学影像分析。权值共享减少参数量,平移不变性(物体位置变化不影响识别)。自然语言处理(ChatGPT)、文本摘要、跨模态学习。信息单向流动(输入层→隐藏层→输出层),无反馈环。图像生成(DeepFake)、数据增强、艺术创作。单层网络,仅处理线性可分问题(如简单二分类)。含隐藏层,可解决非线性问题(如房价预测)。滑动滤波器提取局部特征(如边缘、纹理)。🔢 二、神经网络的分类(按结构与功能)降维保留关键信息(如最大池化)。
2025-06-17 17:04:32
393
原创 AI入门级教程:开启智能世界的大门
数据收集是AI项目的第一步,我们需要收集与问题相关的数据,这些数据可以是结构化的,如表格数据,也可以是非结构化的,如文本、图像等。模型选择是根据问题的特点和数据的特点,选择合适的AI算法和模型。例如,机器学习是AI的一个重要分支,它让机器能够通过大量的数据学习规律,从而对新的数据做出预测或分类。深度学习则是机器学习的一种特殊形式,它通过构建复杂的神经网络模型,能够处理更加复杂的问题,如图像识别、语音识别等。通过学习AI入门级教程,我们可以了解AI的基本概念、流程和应用,掌握AI的基础知识和技能。
2025-06-07 18:14:02
481
原创 轻量级语音合成神器:Kokoro-82M-v1.1-zh-ONNX量化模型 本地部署全指南
2.本源码结合实际语音设备进行了多种语音算法处理,可实时部署到边端设备,服务器和宿主机。3.有需要请关注公众号"CrazyNET", 回复"kokoro"即可。二、本地部署实战(Windows/Linux/Mac通用)。——8200万参数开源TTS模型实测与进阶技巧。一、为什么选择Kokoro?2025年06月06日 | 文本转语音技术。步骤3:语音合成代码实战。步骤2:模型与音色下载。步骤1:基础环境配置。
2025-06-06 17:33:51
2026
原创 Vue.js利用Promise封装ajax请求动态获取数据并展示
关键词:export用来暴露向外界透露的模块 import用来引入模块Vue.js动态绑定数据就是在data:{}中写入你要绑定的参数在Html标签中利用{{}}传入要在页面显示的数据,下面是Promise封装Ajax请求的代码://暴露AjX请求方法export function ExportAjax(reqMethod,reqURL){/** ExportAjax()方法中需要传入两个参数* 参数一:reqMethod请求的方式 一般用GET或者POST* 参数二:reqURL请求
2020-10-29 17:15:08
1051
原创 Html与JavaScript制作一个小的时钟
Html与JavaScript制作小时钟:废话不多说代码里面有注释第一步:第二步:注:因为月份,日,小时,分,秒只有在大于等于10时才是两个数字所以上面的三目运算符只需要在其小于10时让其前面多显示一个0即可;如果你想做一个真正的老式时钟样式的或者现代时钟你需要想象力,和脑子里清晰的步骤,其实好看的时钟都离不开上面最基本的形势。加油!ヾ(◍°∇°◍)ノ゙...
2020-10-04 19:15:31
300
原创 Html-JavaScript-CSS制作轮播图
Html-JavaScript-CSS轮播图制作:相关说明我已经在代码中注释好:如果图片大小不合适在轮播切换的时候会出现小瑕疵哦~下面就是令人最头疼的部分了!。看CSS样式代码下面说明name作用。为name属性赋值后,我就只用其中一个CSS样式说明(上图).fadein-enter-active可以理解为入场效果并用其中的animation为其定义一个名称fadein-in空格后面是延时(延时不同入场效果时间长短不同).fadein-lea
2020-09-14 17:14:44
448
1
原创 使用Vue将下拉框(select)获取到的数据绑定在input文本框中
用html测试:代码:说明:引入vue.js,新建一个vue实例对象,在data中定义一个数组和两个变量data1和data2,再定义一个方法tt,tt当中是两种不同的获取select选定值的方式,一种是通过ref去获取选定值,另一种是通过获取标签id去获取选定值,然后在通过v-model或者v-bind:value进行数据绑定(我很懒所以v-bind:value没写原理与v-model一样自己尝试)...
2020-09-13 15:54:25
6722
3
speech-sambert-hifigan-tts-zh-cn-16k-onnx模型文件及源码部署
2025-08-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅