watersink-优快云博客

原创 2025徘徊与坚守：在传统与变革间寻找自己

整体来说，我投的简历不多，大多数都是请假去面试的，有1个是中午面试的，其余周末面试的。思考了很多，12-13k的这种对于我现在的薪资来说，没啥竞争力，15-16K的这种有点意思了，但是不够，20k的这种可以说在我这样的小城市，诚意满满了。我这样的人，总是为被人考虑的多，为自己考虑的少，最终，活成了别人，忘记了自己，屠龙少年终成恶龙。另外一个问题就是内耗严重，这种内耗不是bat的那种996，人家是真真实实的做事创造价值，但是这确实自己人疲劳自己人，下班后的通知、电话，整的一个人“没钱没时间”。

2025-04-03 20:01:16 704

原创基于大模型的pc版语音对话问答

Solution类初始化语音合成引擎，在chat_with_ollama方法中，持续监听语音输入，调用 OpenAI 兼容模型获取回复，实现语音播报并更新对话历史。主程序初始化语音识别模型，启动各功能模块并开启 Tkinter 主循环，使应用程序能正常运行。网页端Web 语音 API，例如 Web Speech API 或者 Google Cloud Speech-to-Text API 等。采用vllm框架，部署DeepSeek-R1-Distill-Qwen-7B模型。模型下载，大概1.99G。

2025-03-28 12:13:16 1031

原创大模型应用平台架构

MCP 是 Model Context Protocol（模型上下文协议），是一种开放标准协议，旨在为大型语言模型与外部数据源、工具和服务，提供标准化的双向通信接口，核心特性包括支持单一协议连接多种工具和服务、AI 智能体可动态发现可用工具、基于双向通信机制实现实时交互、本地与远程兼容，以及内置标准化访问控制确保安全等。HDD（机械硬盘）和 SSD（固态硬盘）作为数据的长期存储介质，HDD 适合大容量、对读写速度要求不太高的数据存储，而 SSD 以其高速读写性能，常用于存储需要频繁访问的数据。

2025-03-26 18:48:16 553

原创基于dify的语文作文批改agent

第二个节点，HTTP请求主要实现一个OCR识别的api post请求。实现过程，刚开始我是基于URL进行图片传递的，有问题，一直卡着过不去，后来换成基于bytes传递。第二个节点，LLM2选用的模型为Pro/Qwen/Qwen2-VL-7B-Instruct。思路1：基于OCR的思路进行作文文字的提取，再将提取的文字传给LLM进行点评。最后一个节点直接回复大模型的输出，LLM2/{x}text。第三个节点，LLM模型采用qwen2.5-14b的模型。其中OCR识别采用的百度的paddleOCR（

2025-03-25 10:34:46 956

原创 5款视觉OCR开源模型

来自清华和旷视的研究团队提出了一个通用的OCR-2.0模型，模型能够处理各种OCR任务中的上述所有类型的“字符”，是一个统一且优雅的端到端模型，包含高压缩编码器和长上下文解码器。Umi-OCR 可以将纸质文档、书籍、合同等转换为可编辑的电子文本，提高文档存储和检索的效率。Surya：多语言文档OCR工具包，可进行准确的文本行检测，即将推出文本识别功能，以及表格和图表检测功能，可以处理各种类型的文档和多种语言。该模型可以更深入地理解丰富的文档，尤其是包含图表、图形、公式和数字的科学论文。

2025-03-25 09:21:01 1537

原创 MCP(Model Context Protocol)总结

技术门槛的降低和功能的增强，正在为我们打开一个 AI 无处不在的未来...MCP 可能不是完美的协议，但在大模型时代，它就像 AI 的“万能插头”，让模型能连上现实世界。这些场景的实现，只需与 AI 简单对话，MCP 就会像一个无形的桥梁，连接起各种服务，让繁琐的操作彻底消失。提示词（Prompts）提示词是服务器提供给AI的预写消息或模板，帮助AI理解如何使用资源和工具，例如，服务器可能告诉AI：“你可以添加任务，试试说‘添加任务：买牛奶’”，从而帮助用户更轻松地完成任务。

2025-03-24 11:27:49 753

原创本地知识库RAG总结

第一，自己从0开始实现RAG，优点是灵活度高，可以定制，召回有保证，缺点是工作量大。3、融入“知识图谱”技术，将文档中的实体和属性形成可解释的知识图谱，在检索的时候，通过问题中语义实体或关系，基于知识图谱库获取和该问题推理相关的上下文（事实或逻辑），让大模型按照可解释的推理过程进行问题的分解和答案生成。首先通过模型进行关键词抽取，这里可以通过传统的nlp技术进行分词，也可以通过大模型进行分词，然后进行关键词按照同义词做扩充，找到关键词的候选列表，最好根据关键词候选列表调用explore方法召回局部子图。

2025-03-14 20:03:41 1262

原创 dify+mysql的诗词助手

数据库poetry中包含4张表，分别是poems，poems_author，poetry，poetry_author。通过搭建一个支持post请求的http服务，基于该服务实现SQL的查询结果输出。第一个LLM实现将用户提问转化为SQL，模型选择qwen2.5-14b模型，可以基于数据库进行多表的查询汇总，输出结果，并以表格、柱状图等形式展示。{"sql_query": "LLM-生成SQL/{x}text"}开始-->LLM-->Http请求-->LLM-->直接回复。，请求模式为POST，

2025-03-13 18:32:30 431

原创 Distilling Step-by-Step论文解读

GitHub:Google Research 团队发表的论文《Distilling Step-by-Step!》提出了一种创新的知识蒸馏方法，不仅能有效减小模型规模，还能使学生模型在某些任务上超越其教师模型。"Step-by-Step Distillation" 方法的核心创新在于其对推理过程的重视。该方法不再将 LLM 视为简单的输入输出映射器，而是着重提取其解决问题的思维链 (Chain-of-Thought)。这就像在数学教学中，不仅要求学生得到正确答案，更要理解完整的解题步骤。

2025-03-13 14:04:01 1026

原创在unsloth框架下的基于医疗deepseek模型微调

在技术上，QLoRA涉及量化（quantization）技术，将模型的一部分权重参数存储在较低精度的数值格式中，以此减少内存使用和计算量，同时结合LoRA的低秩调整，让适应过程更加高效。与 LoRA 不同的是， QLoRA 会将插入的低秩适配器层的部分权重进行量化（通常是量化为INT4或INT8），在保持性能的同时显著降低模型的存储和计算需求。例如，对于法律、医疗等专业领域，可以使用少量的标注数据对预训练模型进行微调，帮助模型理解特定行业的术语、规则和知识，进而提升专业领域的问答能力。

2025-03-12 19:57:28 661

原创 Dify框架下的基于RAG流程的政务检索平台

索引模式采用向量检索+全文检索这样的混合检索模式，其中向量检索Embedding 模型使用bge-large-zh-v1.5，排序Rerank 模型使用bge-reranker-large模型，其他参数TopK设置为0，阈值为0.7。对于用户的提问首先进行知识库检索，输出的内容分2个分支，第一个分支进入LLM大模型，第二个分支进入代码执行模块提取出出处标题和内容。项目需要实现对于41个公司规章制度文件的检索，输出检索出自文件名称、命中的问题答案内容，并且保证原始规章制度的格式输出，不允许加工修改。

2025-03-06 20:50:37 365

原创时间序列分析+目标检测总结

时间序列基础、算法和实战

2025-03-06 19:43:31 160

原创 Llama-Factory框架下的Meta-Llama-3-8B-Instruct模型微调

具体来说，对于模型中的每一个线性层，假设其输入为\(x\)，原始的线性变换为\(y = Wx\)，在应用 Lora 方法后，线性变换变为\(y = Wx + \Delta Wx\)，其中\(\Delta W = BA\)，\(A\)是一个从输入维度映射到低维空间的矩阵，\(B\)是一个从低维空间映射回输出维度的矩阵。：在训练过程中，只对低秩矩阵进行计算和更新，计算量大幅降低。：因为微调后的模型只增加了少量的低秩矩阵参数，模型的大小增加有限，这有利于模型的快速部署，特别是在对部署时间和资源有限制的场景中。

2025-03-06 18:27:20 1082

原创时间序列预测实操（从0到1）

【代码】时间序列预测实操（从0到1）

2025-03-06 17:10:48 124

原创时间序列预测实操

保存并加载训练后的模型。# 定义损失函数和优化器。# 加载数据，并查看。

2025-03-06 16:43:26 157

转载从LR到DeepSeek，模型慢慢变大了，也变强了

传统机器学习、深度学习、大模型等等都属于机器学习机器学习 = 特征工程+算法模型。其中特征工程是模型的输入，训练阶段模型会对特征（除标签列）进行各种计算期望得到的结果最大可能的接近样本的标签列。训练完成后，固化下来的参数，将用在后续的模型预测阶段中。特征工程是提升模型性能的关键环节，通过合理的特征设计，可以显著提高算法的效果上限。拥有好的特征后，算法模型能够更接近其理论效果上限，从而实现更高的预测准确性。

2025-03-06 12:13:56 390

转载从Transformer（2017）到DeepSeek-R1（2025）

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。

2025-03-04 11:30:54 64

原创基于姿态估计与XGBoost的孤立手语识别

江勇军[5]提出结合关键点特征和手部SURF特征、HOG特征的思想进行孤立手语识别，手语特征更偏向骨节点的位置特征，SURF和HOG特征引入纹理，边缘等特征，存在大量特征冗余。通过姿态估计可以获取脸部、手部、身体的关键点坐标，结合不同视频帧之间的姿态坐标变换就可以形成手语的特征向量表示，将其输入XGBoost进行分类，最终实现孤立手语识别。后续在手语数据积累到一定的规模后，可以引入深度学习的方法，构建手语识别模型，进一步提高孤立手语的识别精度。手语识别的目标是将手语视频自动翻译成相应的手语注释。

2025-03-03 17:34:00 832

原创 CCF 山西 deepseek 会议总结

在2025.3.1，CCF在太原师范学院举办了关于DeepSeek技术惠普引领产业变革论坛的会议。整体流程基本就是开幕词--3场演讲--茶歇--2场演讲--panel--结束。最后是圆桌panel，会议最后还赠送了一个CCF的黄色笔记本。和百信有联合研发的大模型一体机。

2025-03-03 11:55:22 206

原创视频监控平台&&运维部署平台设计

综合展示煤矿企业的接入点位情况，在线情况，煤矿企业的生产情况，报警类型的分布情况，并提供历史报警的快速入口。将各个场景中监控点位情况进行统计展示，不仅展示了监测点在线情况、重点视频监测、摄像头在线统计信息、本月预警事件统计、告警列表、告警统计图、违规行为记录、视频轮询、告警图表统计、人流统计等，还可以直接在二维地图上点击对应点位的进行视频查看。视频监控平台作为现代安防体系的核心枢纽，整合了先进的视频采集、传输、存储与分析技术，构建起全方位、智能化的监控体系，为各行业提供高效、可靠的安全保障及数据支持。

2025-02-28 19:35:42 925

原创基于Deepseek系列的大模型思考探索

综合来看，如果您是专业的科研团队，拥有强大的计算资源，追求极致的推理速度，那么 SGLang 无疑是首选，它能像一台超级引擎，助力前沿科研探索；要是您是普通的个人开发者、学生，或是刚踏入 AI 领域的新手，渴望在本地轻松玩转大模型，Ollama 就如同贴心伙伴，随时响应您的创意需求；Ragflow，比较笨重，具备用户管理，集成了RAG，速度很慢，使用软件涉及了es，minio，mysql等，基于助手的产品设计思路不苟同（http://10.1.12.10:80/）开源大语言模型，采用7B和67B两种配置；

2025-02-13 18:09:37 1269

原创 deepseek-r1部署教程

OLLAma安装一、在线部署方式拉取镜像：安装cuda版：安装cpu版本：ollama部署模型：

2025-01-23 15:23:30 587

原创面试题库笔记

此方法来自Hinton在2006年发表的一篇论文，Hinton为了解决梯度的问题，提出采取无监督逐层训练方法，其基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，此过程就是逐层“预训练”（pre-training）；：基本思想是根据学习难度的不同，对不同的少数类别的样本使用加权分布，比较容易学习的少数类样本，对于难以学习的少数类的样本，产生更多的综合数据。大小：物体的大小指面状物体的面积或者线状物体的长度，在图像上表现为像元的集聚状态。

2025-01-23 15:22:30 562

原创基于华为atlas的重车（满载）空车（空载）识别

但是整体探索过程比较坎坷，Tianxiaomo的代码可以基于原始yolov4模型进行推理，可以转化onnx，但是训练过程我感觉代码有问题，loss很大，也没检测框输出。其中，VOC2025为我自己的数据集起的名字，你也可以起别的名字，Annotations存放XML文件，Main中存放，train.txt，val.txt，txt中只写图片的名字，一行一个。# dataset.py, get_image_id函数，因为我的图片命名规则是Id_id.jpg，所以将2个id拼接起来作为最终的id。

2025-01-13 17:12:56 878

原创基于华为atlas的车辆车型车牌检测识别

整体分为2个部分，也就是2个模型，车辆检测、车型检测、车牌检测这3个功能是一个基于yolov5的模型实现，车牌识别是基于PaddleOCR中的PP-OCRv3的模型实现。__del__函数调用过程中会出现内存释放的报错，感觉应该是华为对于多个模型并存的内存释放，变量都使用的同一个导致的。今天测试的时候，发现华为的demo中utils.py里面preproc函数的实现还是有问题，自己进行了相应的修改。其中，制作数据集的代码如下，主要实现车牌图片的扣取、车牌检测、车牌识别标签的制作。

2024-12-26 19:28:11 1089 2

原创基于华为atlas环境下的OpenPose人体关键点检测的人员跨越、坐立检测

然后基于该算法将上面的数据集跑一遍，得到所有数据的人体关键点和类别。基于OpenPose模型将数据集跑一遍，得到关键点坐标数据集，数据集保存在txt里面，每一行格式为（图片名类别关键点xy坐标），如果身体遮挡没有关键点的使用-1代替。（2）本质来看，跨越、坐立还是一个时序问题，基于时序的思路解答这个问题效果应该是会高一个量级的。关键点模型也是直接使用的开源的模型，没有在自己私有数据上微调，等等问题都会对最终的结果有影响。收集数据集，数据集中包含3种类型的数据，分别是跨越、坐立、其他（站立、睡着等等）。

2024-10-29 15:53:43 580

原创基于atlas环境下YOLOV7的睡岗识别

主要基于华为的官方例子，里面修改了原始代码中某些库不支持的问题、解决了模型转化过程中的一些问题，发现了ACL不支持多线程的问题。本来自己是想做一个grpc的架构的，可是实际做的过程中发现华为的AclLiteModel实现的很差，对于进程、线程这些非常不友好，必须得是一个进程，同样的上下文才可以得到正确的推理结果。这里对比的训练的yolov7、yolov7-tiny两个模型，从精度上的明显差距，最终选择了yolov7模型作为最终模型。B站找一段睡觉的视频下载下来，这里实用you-get工具，

2024-09-20 16:00:00 728

原创基于华为atlas的皮带跑偏、空载、堆煤、启停探索

写这篇的时候，想起当年第一次接触atlas还是在京东的一次aicon的会议上，其实那时觉得这东西挺新的，还有自己的IDE，其实自己也没用过。整体感觉模型这块不算复杂，唯一的麻烦的地方就是皮带、煤、煤块这几个的分割是属于多标签分割问题，就是说一个像素可以属于其中的一个也可以是属于其中的几个。训练过程采用累进训练的方式，我是一个一个目标递进训练的，这样可以获取更好的精度，具体的先训练出背景、皮带、左右托锟的模型，再在此基础上迭代煤的模型，最后迭代煤块的模型。是故无贵无贱，无长无少，道之所存，师之所存也。

2024-08-14 17:49:33 979 4

原创基于华为atlas下的yolov5+BoT-SORT/ByteTrack煤矿箕斗状态识别大探索

这里说明以下，为什么不整体都选择yolov8呢，v8无疑是比v5优秀的，但是atlas这块经过不断尝试没有过去，所以只能选择v5。那为什么跟踪模型选择yolov8呢，其实我这里要做的是实时视频的处理，我也不想使用deepsort那种带识别模型的笨重型跟踪框架，看了yolov8的代码，觉得相当可以，就选择了yolov8中的跟踪。原本我以为自己的水平是扣不出这块跟踪代码的，毕竟是网上大波大佬修改过的代码。连续加班了2个晚上后，终于扣出来了，过程是曲折的，结果是美好的。模型转化，pt模型转化为onnx，

2024-08-13 16:27:08 816

原创 unet改进笔记

改进2：基于图片拼接的数据增强，需要修改图片和标签，在utils/data_loading.py中__getitem__函数增加。改进3：训练图片分布的随机扰动，在utils/data_loading.py中__getitem__函数增加。调用方式，在utils/data_loading.py中__getitem__函数增加。改进5：MobileV3Unet，新增mobilenet_unet.py。改进6：VGG16UNet，新增vgg_unet.py。改进7：HNet，新增HNet.py。

2024-04-16 18:19:18 1335 2

原创车道线检测之LaneNet

聚类分支负责将同一车道线的像素汇聚，不同车道线的像素拉开，输出聚类图。得到分割分支和聚类分支的结果后，需要进行后处理操作，对分割结果进行几何形态学处理从而去除孔洞，对去除孔洞的图像进行连通域处理，得到不同的连通域，对不同连通域图像基于聚类分支结果进行赋值，然后基于dbsan聚类，得到最终的实例分割结果。基于实例分割图，通过预先训练好的H-Net转化为鸟撖图，再基于曲线拟合得到车道线的曲线方程，从而得到像素点，将鸟撖图的像素点通过H-Net的逆变换矩阵还原到原图上，最终得到最终的车道线像素点。

2024-03-19 16:39:52 1427

原创基于华为atlas的unet分割模型探索

使用工具Netron查看模型结构，确定模型输入节点名称为input.1，输出节点名称为/outc/conv/Conv。华为atlas的参考案例细节不到位，步骤缺失较多，摸索困难，代码写法较差，信创化道路任重而道远。模型输入为572*572*3，输出为572*572*2。分割目标分别为，0：背景，1：汽车。Unet模型使用官方基于kaggle。

2024-03-05 16:58:17 854 2

原创基于华为atlas的分类模型实战

修改mobilenetv3.py中网络结构，模型选用MobileNetV3_Small模型，网络输出节点增加softmax层，将原始的return self.linear4(out)修改为return F.softmax(self.linear4(out), dim=-1)分类模型选用基于imagenet训练的MobileNetV3模型，分类类别为1000类。模型的输出node增加softmax成功。模型的输入node名称为input.1。实现转化onnx代码，

2024-02-27 16:29:02 1238 4

原创华为atlas300安装教程

【代码】华为atlas300安装教程。

2023-12-20 11:52:01 1448

原创基于华为atlas的烟火检测实战

实现信创化的docker file用于生成docker image，初始系统选择openeuler-20.09系统，docker file文件内容如下，将yolov5的best.onnx模型拷贝到当前目录，进行onnx转化为om，输出yolov5_add_bs1_fp16.om。基于flask实现烟火检测算法的http服务，然后实现视频解码-AI识别-结果绘制于视频上进行视频编码的业务代码。最终效果如下，上边为业务代码、左下角为流媒体引擎代码、右下角为AI服务代码、中间为AI实时视频识别效果。

2023-12-20 11:17:33 1336

原创 AI开发训练平台功能梳理

工作计划流程图

2023-12-15 16:57:05 922

原创视频分类（Classification）和摘要（Captioning）总结

例如，在视频分析中，3D CNN可以检测动作、行为和事件，为视频分类、视频理解和动作识别等任务提供强大的能力。例如，在动作识别任务中，光流信息可以帮助区分不同的动作类别，而RGB信息可以提供更多的上下文信息。然而，与2D CNN相比，3D CNN具有更高的计算复杂性和更大的模型参数量，因此可能需要更多的计算资源和数据来训练。基本思路使用2dcnn或者3dcnn提取rgb视频或者光流视频每一帧的特征，将得到的每一帧的特征输入LSTM或者Transformer这样的语言模型进行学习，从而输出任意形态的句子。

2023-07-14 09:05:55 5302 1

原创非局部attention之Non-local

Non-local和全连接层fc也是有区别的，第一，fc依靠学习的权重计算两个位置的关系，non-local计算两个位置的关系却不依赖输入的数据本身。其中，i表示输出位置的索引，j表示输入位置的索引，x表示输入特征，y表示和x同样大小的输出特征，f函数表示计算位置i和位置j之间的联系，计算结果使用一个常数表示。G函数表示计算输入特征在位置j处的特征表示。传统的卷积需要依靠不断一层一层堆叠来获得足够大的感受野，这样操作存在几个问题，第一，计算不高效，第二，优化训练过程麻烦，第三，使得模型有多次反射依赖。

2023-06-30 16:18:06 793

原创期望最大化注意力网络 EMANet

论文提出的期望最大化注意力机制Expectation- Maximization Attention (EMA)，摒弃了在全图上计算注意力图的流程，转而通过期望最大化（EM）算法迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。X表示观测数据，Z表示隐变量空间，每一个数据x都有相应的隐变量与其对应，{X,Z}称为完整的数据，其极大似然估计就是lnp(X，Z|q)，q表示模型的参数。通过注意力可视化图，i，j，k，l表示四个随机选择的基的下标,右边四列绘出的是它们各自对应的注意力图。

2023-06-28 20:48:46 5421

原创图像分割之SAM（Segment Anything Model）

该模型有别于传统的分割模型。传统分割模型只能输入原图输出固定的分割结果，SAM在设计上可以同时输入原图和特定提示（点、框、阴影、文本），然后根据不同的提示输出不同的分割结果图，并且SAM支持不同提示的交互式分割。SA-1B覆盖了更广泛的图片区间，比第二大分割数据集多了11倍的图片400倍的mask。随着提示点的数量的增加，SAM的分割效果越来越高，随着提示点从1到9的增加，SAM方法和其他分割方法之间的gap越来越小。在论文的交互式分割任务中，有的提示信息，比如点的提示，存在模棱两可的情况。

2023-05-11 19:05:01 11999 1