麻瓜pro-优快云博客

原创【迭代】本地高性能c++对话系统e2e_voice

本次更新带来了真正的中英双语 TTS 能力，无需再为混合文本的朗读而烦恼。结合项目已有的 ASR + LLM + TTS 流水线，现在可以构建更加自然的多语言对话系统。dengcunqin提供的优秀模型！以及**wolfgitpr** 提供的 cpp-pinyin 库！如果这个项目对你有帮助，欢迎到GitHubStar ⭐！相关链接项目地址：https://github.com/muggle-stack/e2e_Voice。

2025-12-23 09:13:52 642

原创【迭代】本地高性能c++对话系统e2e_voice

-device_index 0 \ # 音频设备索引--sample_rate 16000 \ # 采样率--silence_duration 1.5 \ # 静音停止时长--max_record_time 60 \ # 最大录音时长--vad_type energy # VAD类型v3.0.0模块化架构：ASR和LLM可独立选择本地/云端4种部署模式：适应不同场景需求统一配置管理：.env文件简化配置流程自动音频处理：重采样等功能自动化保持兼容性：原有全本地模式依然可用无论你是追求。

2025-10-22 09:34:10 801

原创 C++实现高性能说话人识别

本文详细介绍了一个基于现代C++17实现的高性能说话人识别系统的完整架构设计与核心技术实现。该系统通过集成ONNX Runtime推理引擎、实现梅尔频率谱特征提取、采用余弦相似度匹配算法，构建了一个支持实时处理、跨平台部署的生产级说话人识别解决方案。本文将从系统架构、音频处理管线、特征提取算法、深度学习模型集成、数据库设计等多个维度深入剖析其技术实现细节。关键词：说话人识别；C++17；梅尔频率谱；深度学习；实时处理项目地址：GitHub:本文详细介绍了一个基于C++17的高性能说话人识别系统的设计与实现。

2025-10-01 17:02:32 725

原创【迭代】本地高性能c++对话系统e2e_voice

在构建智能语音对话系统时，安全性和个性化是两个重要的考量因素。本文将详细介绍如何为一个基于C++的端到端语音对话系统（ASR-LLM-TTS）添加说话人识别功能，实现基于声纹的访问控制，确保只有授权用户才能使用系统的核心功能。

2025-10-01 16:36:00 1217

原创【迭代】：本地高性能c++对话系统e2e_voice

在。

2025-09-09 10:40:04 1085 2

原创【AI周报】25年8月第2周

斯坦福HAI的报告指出，AI模型的能耗正在以每八个月翻一番的速度增长，且头部模型的性能差距正在缩小。Meta的事件暴露了在商业利益和技术迭代的压力下，企业在伦理安全审查上的马虎或权宜之计，从而将潜在的、可预见的风险转嫁给了用户，特别是未成年人。这再次警示，AI的快速发展必须与健全的伦理治理框架同步，否则其带来的危害将远超其创造的价值。路透社审查的一份Meta内部文件揭示，公司的AI聊天机器人被允许与未成年人进行“浪漫或感官”的对话，并提供虚假医疗信息和生成带有种族偏见的内容。

2025-08-17 00:16:14 1279

原创【AI周报】2025年8月特别周

8月5日，OpenAI发布了自GPT-2以来的首批开源权重模型。需要明确的是，这些模型是“开源权重”（open-weight），而非完全的“开源”（open-source）。这意味着模型的参数（权重）是公开的，但用于训练的数据集和完整的源代码并未公开。一个拥有约1170亿至1200亿参数的模型，专为强大的推理能力而设计，其性能据称与OpenAI自家的专有模型o4-mini相当。该模型效率极高，可在单张80GB显存的企业级GPU上运行。

2025-08-10 14:56:22 1112

原创高性能流ASR C++实现

本文介绍的流式ASR系统通过环形缓冲区、VAD状态机、多线程处理池等技术，实现了高性能的实时语音识别。低延迟：流式处理，边说边识别高并发：多线程架构，充分利用多核内存高效：环形缓冲区，固定内存占用易扩展：模块化设计，方便集成新功能完整的源代码已开源在GitHub，欢迎大家使用和贡献代码。未来我将添加更多功能，如说话人分离、情感识别等。

2025-08-10 12:56:10 1115

原创【AI周报】2025年8月第一周

2025年7月26日至8月2日这一周，标志着人工智能领域的一个历史性转折点。推理能力的革命性突破：谷歌Gemini 2.5 Deep Think成为首个获得国际数学奥林匹克金牌的AI系统，开启了多智能体推理的新纪元万亿参数开源模型的崛起：月之暗面Kimi K2和阿里Qwen3-Coder以极低成本挑战闭源霸权，证明开源生态已具备与顶尖商业模型竞争的实力全球AI治理的大分化：美国推出去监管化的《AI行动计划》，与欧盟严格的《AI法案》形成鲜明对比，预示着全球AI发展路径的根本性分歧。

2025-08-03 09:00:00 1196

原创【AI周报】2025年7月26日

2025年7月的第四周，是AI发展史上的一个密集而关键的时刻。对于身处其中的每一位开发者，本周的事件不仅是新闻，更是塑造未来职业路径和技术选择的路标。随着GitHub Spark这类AI原生开发工具和Agentic AI框架的崛起，单纯的编码能力的重要性在相对下降，而系统架构设计、复杂问题分解、以及对AI代理的有效编排与管理能力正变得至关重要。以Qwen3为代表的顶级开源模型的出现，为开发者带来了前所未有的机遇。

2025-07-26 18:57:28 1401

原创 ETE_Voice：端到端C++智能语音对话系统

随着AI技术的发展，语音交互成为人机交互的重要方向。本文将详细介绍ETE_Voice项目——一个完整的C++端到端智能语音对话系统，集成了自动语音识别(ASR)、**大语言模型(LLM)和文本转语音(TTS)**功能。项目GitHub技术栈ETE_Voice项目展示了如何构建一个完整的端到端智能语音对话系统。通过模块化设计、先进的AI模型集成和精心的工程优化，实现了从语音输入到语音输出的自然交互体验。提供了完整的语音对话系统实现方案展示了多个AI模型的工程化集成方法。

2025-07-26 17:18:57 1363

原创 Matcha-TTS 高性能 C++ 实现

文本输入 → 文本预处理 → 声学模型(Matcha) → 梅尔频谱 → 声码器(Vocos) → 复数频域谱 → ISTFT → Hann → 时域音频波形。

2025-07-11 19:31:24 805

原创高性能 ASR Sensevoice C++ 实现

本项目实现了一个完整的实时自动语音识别(ASR)系统，从最初的Python原型成功迁移到高性能的C++实现。系统集成了SenseVoice模型，支持中文、英文、日文、韩文和粤语等多语言识别，在保持完整功能的同时实现了显著的性能提升。性能提升实时因子(RTF): 从0.09提升到0.04-0.05，提升45-55%内存使用: 从460MB降低到360MB，减少约20%启动速度: 显著提升，模型加载更快功能完整性✅ 保持了所有Python版本的功能特性✅ 支持多语言识别 (中、英、日、韩、粤语)

2025-06-26 16:22:00 1368 1

原创全网首发！SmolVLM-256M多模态Ollama API版本完整教程：HuggingFace最强开源VLM，端到端部署神器

HuggingFace开源的SmolVLM-256M，这是一个非常轻量级多模态AI模型！目前Ollama官方还没有提供直接支持，

2025-06-14 10:00:00 2762 1

原创 RAG从入门到实现：手把手教你打造智能文档问答系统

RAG全称是（检索增强生成），听起来很高深？传统AI问答：AI只能基于训练时学到的知识回答，无法获取最新信息RAG问答：AI先从你的文档中检索相关内容，再基于这些内容生成回答简单来说，RAG =搜索引擎AI对话轻量级：无需复杂的向量数据库多格式支持：7种常见文档格式本地化：数据不上传云端，隐私安全实时性：内存计算，响应速度快可扩展：代码结构清晰，易于修改。

2025-06-11 16:41:54 1202

原创本地端到端语音(ASR-LLM-TTS)

你有没有想象过在本地快速搭建一个完整的语音对话系统？只需一台普通电脑，无需联网，甚至低算力设备也能流畅运行。这篇博客将手把手带你实现一个端到端的语音交互系统，从语音输入到语音回复，全链路完整展示。ASR-LLM-TTS Onnx 项目实现一个在本地运行的端到端语音对话系统，能够完成“语音 -> 文本 -> 对话回复 -> 语音”的全过程。项目地址：https://github.com/muggle-stack/asr-llm-tts。

2025-06-04 09:30:00 2972 3

原创语言指导图像分割（clip-sam-onnx)

CLIPSeg（CLIP + Segmentation）是基于 CLIP 的一种零样本分割模型。它在预训练的 CLIP 基础上添加了一个Transformer解码器，用于将 CLIP 提取的图像语义特征转化为像素级的分割预测。通俗来说，CLIPSeg 利用了 CLIP 对图像语义的理解力（源自4亿对图文数据的训练），能够根据任意文本描述，在图像中直接生成对应区域的掩码。图像预处理。

2025-05-27 12:19:29 1408

原创 MCP是什么？怎么实现？

先说结论：MCP 是 Anthropic 把 function call 平台化的一步棋，本质是工具接口的统一协议，目标是让 Claude 自动调全世界的工具，谁先做生态，谁就是 AI 里的 App Store。仓库地址：https://github.com/muggle-stack/MCP.git。

2025-05-23 10:00:00 1564

原创 onnxruntime模型静态量化（PTQ）

ONNX Runtime的训练后静态量化 (Post-Training Static Quantization, PTQ) 是一种模型优化技术，通过将模型的权重和激活值从浮点数（如FP32）转换为低精度整数（如INT4、INT8），从而减少模型体积、提升推理速度并降低资源消耗。

2025-05-22 10:00:00 2493

原创大语言模型函数调用(Function Call)

主要作用是输入内容以后先通过第一个模型（FCModel)判断你输入的prompt是否存在函数，如果存在，则会触发tool calls，执行相应的函数，然后返回bool类型数据为true，当if检测到function_called为true的时候，重新回到循环，等待你的下一次输入。text就是传进来的“你的问题”，message包括两个部分，一个是系统的system prompt，另一个则是你的输入content。默认是流输出的方式输出文字，也可以自己改为false。

2025-05-21 10:00:00 950 2

原创 Yolo姿态行人检测（onnxruntime后端、量化后续写）

模型训练的时候输入的HW（高宽）就是固定的（很多模型都不支持动态输入），具体模型的tensor可以通过etron.app去查看，下面就是netron看到的模型输入[N,C,H,W]，N表示批次，C表示颜色三通道。将boxs和关键点传入后处理函数，boxs的第5维向量是置信度（x, y, w, h, conf)，前四维是框的坐标。剩下的51维是关键点，总计17个关键点，每三维为1个关键点。源码在我的仓库都能找到，觉得有帮助的给个star呗，star数超过10，我将开源c++代码。

2025-05-20 09:20:20 776 1

m0_52919859的博客

原创【迭代】本地高性能c++对话系统e2e_voice

原创【迭代】本地高性能c++对话系统e2e_voice

原创 C++实现高性能说话人识别

原创【迭代】本地高性能c++对话系统e2e_voice

原创【迭代】：本地高性能c++对话系统e2e_voice

原创【AI周报】25年8月第2周

原创【AI周报】2025年8月特别周

原创高性能流ASR C++实现

原创【AI周报】2025年8月第一周

原创【AI周报】2025年7月26日

原创 ETE_Voice：端到端C++智能语音对话系统

原创 Matcha-TTS 高性能 C++ 实现

原创高性能 ASR Sensevoice C++ 实现

原创全网首发！SmolVLM-256M多模态Ollama API版本完整教程：HuggingFace最强开源VLM，端到端部署神器

原创 RAG从入门到实现：手把手教你打造智能文档问答系统

原创本地端到端语音(ASR-LLM-TTS)

原创语言指导图像分割（clip-sam-onnx)

原创 MCP是什么？怎么实现？

原创 onnxruntime模型静态量化（PTQ）

原创大语言模型函数调用(Function Call)

原创 Yolo姿态行人检测（onnxruntime后端、量化后续写）

空空如也

空空如也