袁总666-优快云博客

原创金融系统问题

为什么你们要构造 6000 条高质量 SFT 数据？1. 补足不足：原始金融 PDF 解析语料稀缺，直接用开源语料训练无法覆盖金融报表问答需求。2. 对齐任务目标：SFT（Supervised Fine-Tuning）数据使模型学会“如何回答”，确保生成结果贴合问答场景。3. 质量优先：高质量人工构造的数据能显著提升模型在长尾问题上的表现，而不是盲目堆砌低质样本。4. 规模适配：6000 条数据在成本与效果之间平衡，足以支撑 7B 级模型的指令对齐。不懂。

2025-10-02 04:15:23 414

原创智能座舱问答

1. 第一步：多路召回。用户 query 同时走 Dense、Sparse、字面三种召回，得到候选集合。3. 第三步：精排。候选集输入 BGE-Reranker，与 query 成对打分，重新排序。2. 第二步：融合。对多路结果进行归一化打分，按权重融合，形成统一候选集。4. 第四步：生成。Top-K 文档送入大模型生成最终答案。

2025-09-30 20:22:57 318

原创专业技能？

Transformer:Transformer、GPT、BERT，预训练语言模型的前世今生（目录） - B站-水论文的程序猿 - 博客园10 Transformer 之 Self-Attention（自注意力机制）_哔哩哔哩_bilibiliLSTM rnn GRU:(24 封私信 / 72 条消息) RNN、LSTM、GRU序列模型对比 - 知乎【干货】人人都能看懂的GRU人人都能看懂的LSTM

2025-09-27 16:23:21 127

原创金融系统项目亮点细节

文章摘要：系统通过规则过滤（去除页眉页脚等）、模板识别和文本向量相似度计算（cosine相似度>0.9时过滤）实现67%冗余信息过滤。同时，采用自动化标注工具和智能预标注技术，将单条数据人工标注成本降低40%。这些优化显著提升了模型处理效率和问答精度。（149字）

2025-09-17 18:06:26 159

原创 ROS1 → ROS2 代码转换清单

package.xml 更新。

2025-08-30 16:18:34 196

原创 ros1ros2区别和相同之处

2025-08-30 15:45:29 755

原创 protobufer

2025-08-28 16:57:21 86

原创 RAG流程

企业/个人通过对现有的非结构化/结构化数据进行整理分割生成文本块，通过嵌入模型生成向量坐标导入到向量数据库。当用户进行问题咨询的时候，通过嵌入模型生成向量坐标，去向量数据库中进行相似搜索。这时候通过向量检索【重点】查找最相似向量词块【一般是三种算法：欧式距离、余弦相似度、点积相似度】，并且对查找出来的文本块再次进行重新最佳排序【排序模型】，最后将排名靠前的文本，结合提示词模块，构建全新的提示词。传给大模型，最后将大模型的回答返回用户。

2025-08-26 20:33:41 337

原创语音项目八股

具体实现见sherpa-onnx相关目录，OnlineRecognizer类负责流式识别，acceptWaveform和decode方法实现了实时音频流的处理和解码。对比ASR的流式语音识别，portAudio通过回调函数将声音数据传递给ASR的stream，是一个“自动同步传输”(portAudio采集数据实时发送给ASR)。代码中，ASR模块会持续采集音频流，检测到端点后自动分段识别，识别结果通过ZeroMQ异步发送到LLM模块。而llm模块，大模型生成的语句是成句或成段的，通过“。

2025-08-19 13:09:01 912

原创 # 端侧部署C++项目量化技术详解

本项目开发了一套**全离线、模块化**的智能语音交互系统，基于RK3576 NPU实现端到端智能语音交互流水线，集成**流式ASR、DeepSeek大模型推理、TTS语音合成-双缓冲队列**三大核心模块。系统采用松耦合架构，各模块通过**标准化接口(封装ZeroMQ通信协议)**交互，在嵌入式环境下实现4秒内的**语音输入→LLM思考→语音输出闭环**。**技术栈**：Linux、C++、ASR、RK芯片云端量化/端侧部署、TTS、ZeroMQ、CMake、多线程。适合技术面试和深入学习使用。

2025-08-17 15:32:58 691

原创面试问答sada

1.zmq通信咋弄的，参数是啥，为什么要设置。3.三维你机械臂咋规划的，明明是二维空间。2.你这个多线程解决是怎么实现的。4ros2ros1区别？

2025-07-28 19:55:52 96

原创大模型面试回答，介绍项目

2025-07-26 20:16:56 436

原创 DeepSeek-LLM模块解析

怎么设计的方案，基于哪些技术，业界有哪些做法，我怎么实现的，验证方法？模型转换（rkllm.load_huggingface()）总分阐述项目做了什么事情，分条说明，通俗，原始模型（HuggingFace格式）首先要知道什么是量化，为什么要量化。RKLLM格式（.rkllm文件）

2025-07-26 17:46:33 297

原创 deepseek项目流程

├── 加载RKLLM模型 (DeepSeek-R1-Distill-Qwen-1.5B)├── 发送到TTS服务器 (tcp://localhost:7777)└── 发送给LLM模块 (tcp://localhost:6666)├── 加载Sherpa-ONNX ASR模型。├── 文本队列: 接收LLM文本。├── 音频队列: 存储合成音频。├── 启动合成线程和播放线程。└── 等待ASR发送语音文本。├── 实时音频帧送入ASR流。└── 端点检测 (VAD)├── 文本正则化 (TN)

2025-07-26 16:04:56 542

原创 groundingdino论文详细解读

输出: 增强后的文本特征 + 增强后的图像特征。- 在螺钉识别中: "nut . hole"左边是语言编码器，编码理解输入的文本。- 功能: 提供文本描述，指导模型检测目标。- 在螺钉识别中: 相机拍摄的工业场景图像。Input Image: 包含目标的图像。作用: 让两种模态相互增强，提高理解能力。输入: 原始文本特征 + 原始图像特征。- 作用: 定义要检测的目标类别。- 作用: 模型从中检测目标。功能: 融合文本和图像特征。- 功能: 提供视觉信息。创新：三阶段模态融合设计。

2025-07-26 13:20:05 196

原创中国航天集团实习第一周总结

RViz插件与机械臂控制服务端的开发，实现机械臂的路径规划、运动控制、速度/加速度调节、空间与关节控制等功能实现。

2025-07-25 21:05:41 299

原创 Zipformer

首先，Conv-Embed 将输入的 100Hz 的声学特征下采样为 50 Hz 的特征序列；然后，由 6 个连续的 encoder stack 分别在 50Hz、25Hz、12.5Hz、6.25Hz、12.5Hz 和 25Hz 的采样率下进行时域建模。除了第一个 stack 外，其他的 stack 都采用了降采样的结构。不同的 stack 的 embedding 维度不同，中间stack 的 embedding 维度更大。每个 stack 的输出通过截断或者补零的操作，来对齐下一个 stack 的维度。

2025-07-23 20:20:08 288

原创 voice模块

实际判定时，三条规则只要有一条满足就会触发端点（即“或”关系）。规则1：长时间静音强制截断（防漏检）-2.4s。规则2：内容后静音检测（自然停顿）-0.4s。流式识别，确认哪个地方需要加逗号终止截断。规则3：最大时长限制（系统保护）-20s。

2025-07-21 22:15:18 242

原创二叉树层次遍历

【代码】二叉树层次遍历。

2025-06-17 03:56:51 223

原创滑动窗口理论简单（代码）

【代码】滑动窗口理论简单（代码是真费劲啊）

2025-06-09 02:49:47 182

原创拷贝构造函数

/ 第一个智能指针。// 第二个智能指针。// 假设我们有两个智能指针。

2025-06-05 16:28:19 205

原创二叉树删除节点

/ 情况2：只有一个子节点。1删除的这个元素没有左右孩子。

2025-06-03 02:22:38 286

原创 set map数据结构

【代码】set map数据结构。

2025-06-02 21:01:24 184

原创智能指针unique

【代码】智能指针unique。

2025-06-01 17:12:56 210

原创前缀和利口

前缀和方法：prefixSum[4] - prefixSum[1] = 10 - 1 = 9。前缀和数组：[0, 1, 3, 6, 10, 15]假设 vec = [1, 2, 3, 4, 5]假设有一个数组：[1, 2, 3, 4, 5]- 第5个位置：1+2+3+4+5=15。- 原始方法：2 + 3 + 4 = 9。- 第4个位置：1+2+3+4=10。- 第3个位置：1+2+3=6。- 第2个位置：1+2=3。

2025-05-30 01:15:01 293

原创求满足target的最小窗口的长度，滑动窗口法，双指针

i = i + 1;

2025-05-29 18:45:57 189

原创二叉搜索树

每一个节点他的左子树要比他爹小，右子树比爹大。

2025-05-25 02:11:53 145

原创 reactor实现TCP遇到的问题和探究

想象 recv_cb 是一张便签，上面写着一个函数的地址。

2025-05-14 14:36:06 249

原创事件驱动reactor的原理与实现

适合并发量小的场景。- 单线程处理多连接。

2025-05-11 14:55:53 242

原创字节序大端小端

1256，1就是一千所以1是高字节，6是个位数所以低从左往右写。从大王孝蟹1256 将高字节写到低地址，低字节写到高地址叫大端。

2025-05-08 00:22:39 138

原创网络io与io多路复用select/poll/epoll

write：我写你读，你写我读，所以write箭头指向read，read指向write形成回路。bind：给电话绑定一个ip地址和端口号。先看服务端socket：买个电话。listen：监听，看有没有来电。read：听对方给你说的话的内容。accept：接电话，开始童话。socket：为了连接服务器。connect：三次握手连接。write：你回复对方。

2025-05-07 21:07:56 225

原创深拷贝和浅拷贝

改了复制后的的数据，原来的数据也改变了。

2025-05-06 21:32:55 152

原创移动语义左值右值

const int &&c=std::move(a) 将a变成youzhi，可以让c在传递参数或者赋值的时候触发移动构造，避免深拷贝。将str1里的内容偷到str2。

2025-05-06 21:10:27 242

原创函数模板.....

【代码】函数模板.....

2025-05-05 17:11:15 108

原创数据库基本操作

3 一共三位 2是小数点后的位数。

2025-05-04 00:27:17 113

原创线程池1111

1.构造函数初始化线程池，创建指定数量的工作线程每个工作线程在循环中等待任务。使用cond.wait等待条件变量，直到有任务或者线程池停止。如果线程池停止且任务队列为空，则退出线程。否则，从任务队列中取出任务并执行。1.创建线程是的一个成员函数，用于在向量末尾添加一个新元素。这里它会创建一个新的线程。[this]是一个捕获列表，表示这个线程函数会捕获当前类的this指针，以便能够访问类的成员变量和成员函数。2.线程工作循环：线程会一直运行，直到满足退出条件。

2025-05-02 02:46:13 169

原创二叉树红黑树

【代码】二叉树红黑树。

2025-04-30 22:36:39 114

原创双向链表插入删除节点

如果先让1指向新的节点5，因为1原本是指向2的，原本1保存着2的地址，现在我要让5指向2，由于我将1指向了5，于是2的地址没有人保存了，所以5不能指向2。单向链表，没有指针指向2，没有链表存放2的地址，不能让cur指向2来完成操作。

2025-04-30 01:47:51 150

原创多线程高并发

然后切换线程2，线程2全部执行完成++为51；切换线程1，执行eax++也就是50+1=51。线程1执行第一行50移动到eax。

2025-04-29 23:28:54 187

原创链表所有操作

node1->next->data是不对的node1 是一个结构体变量，而不是一个指针，因此不能使用 -> 操作符。//"."用于直接通过对象访问其成员。"->"用于通过指向对象的指针访问其成员。

2025-04-19 11:42:33 155

空空如也

空空如也