慢慢向上的蜗牛-优快云博客

原创 SenseVoice-QNN-ONNX模型C++部署

SenseVoiceASR-QNN是一个基于C++实现的实时语音识别系统，使用SenseVoice模型和ONNX Runtime进行推理，支持Qualcomm QNN加速。该系统实现了完整的语音活动检测(VAD)和自动语音识别(ASR)流程，可从音频设备实时采集音频并进行识别。

2025-12-04 14:33:56 682

原创流式LLM到TTS语音合成如何实现？

LLMSpeaker是一个集成大语言模型(LLM)和语音合成(TTS)技术的流式语音生成系统。它能够实时将LLM生成的文本转换为语音输出，实现类似ChatTTS的流式语音对话体验。

2025-11-24 11:58:02 40

原创手措智能语音对话系统

一个基于深度学习的智能语音对话系统，具备语音识别(ASR)、自然语言处理(LLM)、语音合成(TTS)和语音活动检测(VAD)功能的完整语音交互解决方案。系统采用多线程架构设计，实现了高效的实时语音对话处理流程。

2025-11-21 11:34:10 23

原创微软vcpkg包管理工具如何使用？

vcpkg 是微软开发的开源 C/C++ 包管理器，旨在简化 Windows、Linux 和 macOS 上的 C/C++ 库的获取、编译和使用过程。它提供了大量的预编译库，并支持跨平台编译，使得开发者能够轻松地在项目中集成第三方库。

2025-11-14 11:44:17 1149

原创超级紧凑型支持多语言ONNX(20MB)模型

SpeechTTS 是一个轻量级、高效的文本转语音 (TTS) 系统，基于 SAMBERT-HiFiGAN 架构，优化用于 ONNX 运行时推理。它将原始中文文本转换为自然发音的语音，使用预训练模型导出为 ONNX 格式。该系统利用 KAN-TTS 框架进行语言处理和声学建模，并结合 HiFiGAN 生成高保真波形。

2025-10-10 11:46:41 1020

原创 VibeVoice：前沿长对话文本转语音模型

VibeVoice是一个新颖的框架，旨在从文本生成富有表现力的、长篇的、多说话者的对话音频，例如播客。它解决了传统文本转语音（TTS）系统中的重大挑战，特别是在可扩展性、说话者一致性和自然轮换方面。

2025-09-09 16:17:40 1135

原创如何使用QNN Htp后端部署SenseVoice模型实现实时语音识别

SenseVoiceASR-QNN 是一个基于高通QNN SDK 2.37.0.250724版本的手动编译语音识别项目，该项目将SenseVoice预编译的QNN ONNX模型使用HTP后端进行部署，实现了高效的语音识别功能。项目支持实时语音检测和识别，适用于边缘计算和嵌入式设备场景。

2025-09-08 16:37:03 777

原创 SenseVoice模型静态导出与QNN编译完整指南

环境准备: 安装必要的依赖和模型文件静态导出: 使用固定输入shape导出ONNX模型QNN编译: 将ONNX模型编译为适配高通硬件的格式部署使用: 在目标设备上部署和运行模型性能优化: 提供优化建议和最佳实践故障排除: 解决常见问题和调试技巧通过遵循本指南，您可以成功地将SenseVoice模型部署到高通硬件平台，充分利用硬件加速能力，实现高效的语音识别功能。

2025-09-02 14:30:04 972

原创 MegaTTS模型实时语音合成&核心算法详解

MegaTTS是一个基于深度学习的多语言文本转语音(TTS)系统，支持中英文双语，具有高自然度和低延迟的特点。系统采用模块化设计，包含以下核心组件，代码修改后支持实时语音合成，以及使用wav进行说话人替换

2025-08-28 15:26:29 949

原创 ChatDo - AI协作平台

ChatDo是一个基于Python Gradio框架开发的AI MCP协作平台，集成了对话系统和图像生成功能，提供了用户认证、对话管理、文件处理和图像生成等功能。

2025-08-22 10:36:18 559

原创类人脑模型BriLLM介绍（打破传统Transformer架构）

BriLLM （ Brain-inspired Large Language Model ）是上海交通大学团队研发的类人脑大语言模型，于2025年8月发布。该模型突破了传统 Transformer 架构的局限，采用信号全连接流动（ SiFu ）机制，通过有向图神经网络实现全节点可解释性，支持无限长 n-gram 建模。

2025-08-21 11:57:35 2644

原创 ONNXRUNTIME-CANN部署ONNX模型

这是一个基于华为 CANN（Compute Architecture for Neural Networks）推理引擎的 YOLOv3 目标检测项目。本项目展示了如何使用 ONNX Runtime 和 CANN 执行提供程序在昇腾 AI 处理器上运行 ONNX 模型。

2025-08-20 16:08:27 1349

原创 Dolphin语音识别(包含原模型部署代码，模型导出，模型量化源码)

这是一个基于Dolphin语音识别模型的工程项目，实现了模型推理、ONNX导出和量化优化等功能。本项目支持音频文件的语音识别，并提供了模型优化和部署相关的工具链。

2025-08-19 17:07:57 915

原创语音识别系统(包含算法源码&模型文件)

WenetASR 是一个基于 WeNet（端到端语音识别工具包）的实时语音识别（ASR）系统，结合了语音活动检测（VAD）功能。该项目旨在提供一个简单、高效的框架，用于从麦克风实时捕获音频，进行语音段检测，并使用预训练的 WeNet 模型进行中文语音识别。它特别适合实时应用场景，如语音助手、会议转录或语音命令系统。

2025-08-13 17:21:13 1263

原创 MeloTTS-ONNX原模型及量化模型推理

ChatTTS 是一个基于 MeloTTS ONNX 实现的文本到语音 (TTS) 系统。它允许用户输入文本并实时生成语音音频，支持中英混合语言合成。该项目利用 ONNX 运行时进行高效推理，并包括音频播放的实用工具。该项目基于针对 ONNX 优化的 MeloTTS 和 OpenVoice Tone Clone 实现。目前，它支持 zh-mix-en（中英混合）语言。

2025-08-11 10:26:01 894

原创 SpeechTTS-ONNX紧凑型TTS模型-高效推理+高实时

修改run.pyaudio = ort_model.ExecInfer(["您的自定义中文文本。"])播放音频：使用进行实时播放。保存音频：添加保存逻辑，例如。

2025-08-07 10:34:46 834

原创 Qualcomm LLM模型转换适配30种高通芯片

高通LLM模型转换，可适配30种高通芯片硬件平台。

2025-08-04 10:24:22 686

原创 DeepSeek&Qwen ONNX格式部署平台

修改run.py中的messages结构以调整系统提示或历史对话。在中调整生成参数，如top_ptop_k。

2025-07-28 16:28:16 1051

原创 QNN SDK环境搭建-完美解决PF_VALIDATOR失败问题

链接: [https://pan.baidu.com/s/13mmnQ9f9Y2Kdx8BfvfnXOw?pwd=v327) 提取码: v327。–来自百度网盘超级会员v1的分享。

2025-07-22 10:31:09 313

原创 Wav2Vec-ONNX-FP16精度模型手把手教你手动实现CTC解码

步骤1: 初始化模型ort_loader = ORTLoader(model_path, device="cpu") # 或 "cuda:0"# 步骤2: 读取音频文件print(f"音频长度:len。

2025-07-11 09:23:44 705

原创基于高通QNN SDK的ONNXRuntime推理引擎重编

【代码】基于高通QNN SDK的ONNXRuntime推理引擎重编。

2025-07-01 19:04:51 519

NCCL: 最适合在多 GPU 环境（特别是 NVIDIA GPU）下进行分布式训练，通常在单机多 GPU 或多节点多 GPU 的训练中使用，性能最佳。Gloo: 提供了跨平台和灵活的分布式通信支持，适合没有 NVIDIA GPU 或没有 NCCL 的环境，是 CPU 和非标准 GPU 环境下的良好选择。MPI: 主要用于高性能计算场景，适合跨节点的 CPU 分布式训练，特别是在大型集群上，虽然复杂但非常强大。关注公众号“CrazyNET”，获取更多资源。

2025-06-29 16:01:56 1054

原创 Text-Generation任务数据标注工具

7.CSV文档数据标注。

2025-06-26 19:43:49 278

原创 Text-Generation任务中数据集格式化分

在对话生成任务中，CSV 文件可能包含多列，其中一列是上下文（对话历史或前一句），另一列是模型需要生成的响应。这是最简单的形式，CSV 文件仅包含一个文本列，每行代表一段文本或一句话。适用于大多数生成任务，如语言建模。在更复杂的对话生成任务中，CSV 文件可能包含多轮对话信息，将对话历史和当前轮次的输入分开存储。对于某些生成任务，如情感生成或风格迁移，数据集可能还包含标签信息，表示该文本所属的类别或风格。对于多任务或多标签生成任务，CSV 文件可能包含多列，每列代表一个需要生成的标签或文本。

2025-06-22 09:21:32 947

原创机器视觉新突破：掌握边缘提取、形态学算子与模板匹配三大核心算法

本文介绍了三种边缘检测算法（Canny、Sobel、Laplacian）及其参数和使用场景，以及形态学运算（腐蚀、膨胀、开运算、闭运算）的应用。还提供了基于直方图匹配和模板匹配的代码实现。Canny检测质量高但参数敏感，Sobel适合一般轮廓检测，Laplacian更精细但易受噪声影响。形态学运算可用于去噪和填充图像特征。模板匹配部分展示了如何计算图像相似度并进行精确匹配。

2025-06-21 16:21:31 390

原创 ResNet18深度残差网络详解

本文详细介绍了ResNet18深度残差网络的核心原理与实现。ResNet通过残差学习和跳跃连接解决了深层网络的梯度消失和退化问题，使训练极深度网络成为可能。文章解析了BasicBlock残差块的结构设计、1×1卷积在跳跃连接中的作用、以及完整的ResNet18网络架构，包括4个残差阶段和特征图尺寸变化。最后提供了模型创建和训练的代码示例，展示如何实际应用ResNet18进行图像分类任务。该网络在CIFAR-10等数据集上表现出色，是计算机视觉领域的重要基础模型。

2025-06-20 16:58:23 1175

原创 NVIDIA驱动基于Linux不同版本的编译安装

本文介绍了在Linux系统上安装NVIDIA显卡驱动的完整步骤：首先从官网获取驱动，安装匹配的内核头文件和编译工具；然后禁用默认的nouveau驱动；接着使用特定参数编译安装NVIDIA驱动，包括DKMS支持；最后通过nvidia-smi命令验证驱动安装成功。整个流程涵盖了从驱动下载到安装验证的关键环节，并提供了详细的命令行操作示例。

2025-06-20 16:14:09 433

原创机器视觉算法-滤波&特征提取算法

5.ORB：结合了FAST关键点检测和BRIEF描述符，适用于计算资源有限的情况，局部像素灰度变化明显的地方，速度快，计算像素间亮度差异，具有一定的旋转不变性，但不如SIFT具有高区分度，对尺度变化不够稳定。3.SIFT：使用于检测图像中的角，斑点，圆等，对旋转和缩放不敏感，特征稳定，对旋转，尺度变换，亮度保持不变性，对视角变换，噪声也有一定程度的稳定性，但实时性不高，并且对于边缘光滑目标的特征点提取能力较弱。1.颜色，形状，纹理提取：适用于图像项目中的彩色空间分析，如HSV，LAB，灰度等。

2025-06-20 11:13:18 862 1

原创 Net实战：打造你的首个神经网络

应用：图像分类（ResNet）、目标检测（YOLO）、医学影像分析。权值共享减少参数量，平移不变性（物体位置变化不影响识别）。自然语言处理（ChatGPT）、文本摘要、跨模态学习。信息单向流动（输入层→隐藏层→输出层），无反馈环。图像生成（DeepFake）、数据增强、艺术创作。单层网络，仅处理线性可分问题（如简单二分类）。含隐藏层，可解决非线性问题（如房价预测）。滑动滤波器提取局部特征（如边缘、纹理）。🔢 二、神经网络的分类（按结构与功能）降维保留关键信息（如最大池化）。

2025-06-17 17:04:32 394

原创 AI入门级教程：开启智能世界的大门

数据收集是AI项目的第一步，我们需要收集与问题相关的数据，这些数据可以是结构化的，如表格数据，也可以是非结构化的，如文本、图像等。模型选择是根据问题的特点和数据的特点，选择合适的AI算法和模型。例如，机器学习是AI的一个重要分支，它让机器能够通过大量的数据学习规律，从而对新的数据做出预测或分类。深度学习则是机器学习的一种特殊形式，它通过构建复杂的神经网络模型，能够处理更加复杂的问题，如图像识别、语音识别等。通过学习AI入门级教程，我们可以了解AI的基本概念、流程和应用，掌握AI的基础知识和技能。

2025-06-07 18:14:02 481

原创轻量级语音合成神器：Kokoro-82M-v1.1-zh-ONNX量化模型本地部署全指南

2.本源码结合实际语音设备进行了多种语音算法处理，可实时部署到边端设备，服务器和宿主机。3.有需要请关注公众号"CrazyNET", 回复"kokoro"即可。二、本地部署实战（Windows/Linux/Mac通用）。——8200万参数开源TTS模型实测与进阶技巧。一、为什么选择Kokoro？2025年06月06日 | 文本转语音技术。步骤3：语音合成代码实战。步骤2：模型与音色下载。步骤1：基础环境配置。

2025-06-06 17:33:51 2037

原创 Vue.js利用Promise封装ajax请求动态获取数据并展示

关键词：export用来暴露向外界透露的模块 import用来引入模块Vue.js动态绑定数据就是在data:{}中写入你要绑定的参数在Html标签中利用{{}}传入要在页面显示的数据，下面是Promise封装Ajax请求的代码：//暴露AjX请求方法export function ExportAjax(reqMethod,reqURL){/** ExportAjax()方法中需要传入两个参数* 参数一：reqMethod请求的方式一般用GET或者POST* 参数二：reqURL请求

2020-10-29 17:15:08 1051

原创 Html与JavaScript制作一个小的时钟

Html与JavaScript制作小时钟：废话不多说代码里面有注释第一步：第二步：注：因为月份，日，小时，分，秒只有在大于等于10时才是两个数字所以上面的三目运算符只需要在其小于10时让其前面多显示一个0即可；如果你想做一个真正的老式时钟样式的或者现代时钟你需要想象力，和脑子里清晰的步骤，其实好看的时钟都离不开上面最基本的形势。加油！ヾ(◍°∇°◍)ﾉﾞ...

2020-10-04 19:15:31 300

原创 Html-JavaScript-CSS制作轮播图

Html-JavaScript-CSS轮播图制作：相关说明我已经在代码中注释好：如果图片大小不合适在轮播切换的时候会出现小瑕疵哦~下面就是令人最头疼的部分了！![在这里插入图片描述](https://img-blog.csdnimg.cn/20200919102554160.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0ZKQ2tlc

2020-09-19 10:30:59 308 1

原创 Html-Vue动画效果演示

废话不多说直接上代码再解释：首先先引入vue.js再新建Vue实例对象，由于本次是两个动画效果演示所以有两个Vue实例对象，分别在两个div标签里面分别创建两个transition标签并对其name属性赋值（随便取名字）。看CSS样式代码下面说明name作用。为name属性赋值后，我就只用其中一个CSS样式说明（上图）.fadein-enter-active可以理解为入场效果并用其中的animation为其定义一个名称fadein-in空格后面是延时（延时不同入场效果时间长短不同）.fadein-lea

2020-09-14 17:14:44 448 1

原创使用Vue将下拉框（select）获取到的数据绑定在input文本框中

用html测试：代码：说明：引入vue.js，新建一个vue实例对象，在data中定义一个数组和两个变量data1和data2，再定义一个方法tt，tt当中是两种不同的获取select选定值的方式，一种是通过ref去获取选定值，另一种是通过获取标签id去获取选定值，然后在通过v-model或者v-bind:value进行数据绑定(我很懒所以v-bind:value没写原理与v-model一样自己尝试)...

2020-09-13 15:54:25 6722 3

FJCker的博客