CITY_OF_MO_GY-优快云博客

原创强化学习：LLM常用RLHF算法PPO近端策略优化

本文介绍了强化学习(RL)及其在大型语言模型(RLHF)训练中的应用，重点分析了近端策略优化(PPO)算法。PPO是一种基于策略梯度的深度强化学习算法，通过策略模型(Actor)、奖励模型(RM)和价值评估模型(Critic)三个模块的交互实现模型优化。在LLM训练中，PPO通过监督微调、奖励模型训练和强化学习优化三个阶段，使模型输出更符合人类偏好的自然语言。PPO采用裁剪机制和KL散度正则化防止策略偏离过远，最终训练完成的策略模型可独立生成优质输出。该算法因其稳定性、高效性而广泛应用于语言模型对齐等领域。

2025-12-11 10:22:27 590

原创 Web APP核心组件：Web服务器+Web框架

本文介绍了一个基于Python的OCR识别Web应用开发方案。系统采用分层架构，包括前端界面、Web后端(Flask/FastAPI)、OCR核心引擎(Tesseract/PaddleOCR)、文件处理、数据存储等模块。重点阐述了各模块的技术选型：Flask/FastAPI作为Web框架，EasyOCR/Tesseract实现文字识别，Celery处理异步任务，Nginx+Gunicorn/Uvicorn进行生产部署。文章还详细说明了Web服务器与Web框架的协作关系，并提供了项目结构示例和模块技术对照表。

2025-12-01 11:06:16 766

原创从零理解视频压缩：H.264 的核心原理与工程智慧

现代视频压缩技术通过利用人眼视觉特性和智能编码算法，将原始视频体积压缩至1%-5%。核心原理包括：1）YUV色彩空间转换降低色度数据；2）帧间预测技术仅存储运动变化；3）帧内预测利用空间相关性；4）采用I/P/B帧结构优化时间冗余。H.264等编码器通过运动矢量、残差计算和量化处理，在保持主观画质前提下实现超高压缩比（如300:1）。实际应用中需平衡分辨率、码率和编码参数，FFmpeg等工具可灵活控制压缩效果。视频压缩本质是模拟人类视觉注意力机制，智能保留关键信息。

2025-11-19 20:01:10 880

原创 DINOv3：通用视觉Backbone

DINOv3是Meta推出的先进自监督视觉模型，采用ViT架构（最大70亿参数），通过自我蒸馏框架（师生网络）和三项关键技术实现高效训练：1）自我蒸馏维持特征一致性；2）iBOT损失强化局部特征；3）创新的GramAnchoring防止特征退化。模型在17亿图像数据集上预训练，输出包含高分辨率特征，支持冻结主干仅微调轻量任务头的部署方式，在分类、分割等任务表现优异。其核心创新在于融合全局与局部特征学习，通过多损失协同优化实现强大泛化能力。

2025-09-16 16:01:57 1342

原创 FastViTHD：专注VLM多模态大模型瘦身的视觉编码器

Apple公司提出的FastVLM多模态大模型通过创新的FastViTHD视觉编码器解决了高分辨率图片处理中的效率问题。FastViTHD基于FastViT改进，结合CNN和Transformer的混合架构，采用结构重参数化技术，实现了训练复杂性与推理效率的平衡。其64倍特征压缩和多层跳跃连接显著减少了视觉token数量，降低了计算量。模型采用CLIP式对比学习预训练和多阶段微调策略，特别设计了高分辨率适应训练阶段。相比传统ViT，FastViTHD在保持精度的同时大幅提升了高分辨率图像的处理效率，为视觉-

2025-09-10 10:56:25 938

原创 Yolov8损失函数：回顾Yolov8-Loss

本文回顾了YOLOv8目标检测模型的损失函数设计。模型采用backbone+neck+head架构，输出类别概率和边界框偏移量。损失函数包含三个部分：1）分类损失使用二元交叉熵（BCE），可针对类别不平衡问题加入权重调整；2）边界框回归损失包含IoU损失和DFL（分布焦点损失），其中DFL创新地将回归问题转化为分类任务，通过预测偏移量落在不同区间的概率来计算损失；3）三个子损失加权求和，权重可在超参文件中调整。文章还提供了改进分类损失以处理类别不平衡的具体代码实现方法。

2025-08-30 23:52:24 1079

原创深入理解 CTC Loss：原理、计算与代码实现

本文深入解析了CTC（Connectionist Temporal Classification）损失函数，这是一种处理输入输出序列长度不匹配问题的有效方法。CTC通过引入空白符和路径折叠机制，允许模型在无需预先对齐数据的情况下进行训练，广泛应用于语音识别、OCR等序列任务。文章详细阐述了CTC的核心原理、动态规划计算方法，并通过PyTorch代码示例展示了实现过程。同时分析了CTC的优缺点和常见解码方法，比较了其与Attention机制的差异。尽管存在对重复字符敏感等局限性，CTC在流式识别等特定场景中仍

2025-08-03 22:44:34 1610

原创手撕LLM（五）：从源码出发，探索多模态VL模型的推理全流程

多模态大模型推理的全流程代码实现

2025-04-20 18:57:53 1175

原创手撕LLM（四）：从源码出发，探索大模型的预训练（pretrain）过程

大语言模型的预训练过程源码分析

2025-04-19 16:38:43 1008

原创手撕LLM（三）：从源码出发，探索Dense模型和MoE模型在模型结构上的区别

从代码出发，探索MoE架构的大模型与稠密模型的区别

2025-04-09 11:15:50 1891

原创手撕LLM（二）：从源码出发，探索LoRA加载、推理全流程

从源码出发，一步一步定义、添加LoRA层，从代码层面观察LoRA是如何实现的

2025-04-06 16:27:32 1536

原创手撕LLM（一）：从源码出发，探索LLM推理全流程

从代码出发，展现大模型推理的完整流程

2025-04-05 22:34:48 1037

原创 RAG组件：文本Chunk生成

在选择切块工具时，应根据具体的文档类型、语言特点和应用场景进行选择。对于大多数场景，LangChain 和 Hugging Face 的工具链是非常不错的选择。同时，在切块过程中，务必注意语义完整性、块大小控制和重叠窗口的设置，以确保最终的知识库能够高效地支持检索和生成任务。

2025-03-28 11:34:50 839

原创 RAG组件：Embedding词嵌入模型

理解了Embedding词嵌入模型，我们可以通过各种方式调用、抽取语义向量，并且利用获取到的向量信息进行相似度计算、进行进一步的self-attention运算等等。

2025-03-27 00:22:04 994

原创 Dify：使用dify搭建包含RAG的法律表述判断工作流

RAG、工作流

2025-03-26 00:59:01 2200

原创 Ollama + CherryStudio：构建本地私有知识库

前面我们介绍了，并通过Open-WebUI进行调用，相信大家对Ollama也有了一定的了解；这篇博文就结合Ollama工具和CherryStudio工具构建一个本地知识库（RAG）；在进行接下来的操作之前，需要本地已经安装并配置好Ollama工具，还没有安装的小伙伴可以根据完成本地安装；

2025-03-17 23:25:17 1789

原创 Ollama:大模型部署工具安装及使用

通过PULL命令只可以拉取官方商城维护的预训练模型，如果我们通过LLaMA-Factory等工具微调了一个垂类大模型，想通过Ollama来部署，该如何操作呢？

2025-03-16 00:23:44 1372

原创 Spark-TTS：基于大模型的文本语音合成工具

Spark TTS完全基于Qwen2.5构建，无需额外的生成模型，它不依赖于单独的模型来生成声学特征，而是直接从LLM预测的代码中重建音频。这种方法简化了流程，提高了效率并降低了复杂性；支持零样本语音克隆，它可以直接复制说话者的语音。这是跨语言和代码转换场景的理想选择，允许语言和语音之间的无缝转换，而不需要对每种语言进行单独的培训；支持中文和英文两种语言，使模型能够以高自然度和准确性合成多种语言的语音；支持通过调整性别、音高和语速等参数来创建虚拟说话者。

2025-03-09 22:02:52 5006 5

原创 Mlivus：索引类型对比

索引类型精度速度存储空间适用场景IVF_FLAT高中高大规模数据，内存充足IVF_SQ8中快中存储受限，中等精度需求IVF_PQ低快低高维向量，存储受限HNSW中快中高维向量，高速检索需求ANNOY中快低中低维向量，简单配置需求DISKANN中慢低超大规模数据，磁盘存储为主RNSG高快中高维向量，高效检索需求。

2025-03-04 18:58:38 1077

原创 RAG组件：向量数据库（Milvus）

Milvus 是一款开源的向量数据库，其高性能、分布式、专为 AI 和机器学习设计的向量数据库，广泛应用于推荐系统、图像检索、自然语言处理等领域；它支持多种数据类型（如图片、文本、音频等）的嵌入式表示，并提供快速的相似性搜索能力；1.1 核心功能：支持基于距离度量（如欧几里得距离、余弦相似度等）的高效查询。能够轻松处理数十亿甚至上百亿的向量数据。支持水平扩展，满足高性能和高并发需求。可以处理图像、文本、音频等多种非结构化数据。

2025-03-03 18:04:51 1595

原创垂类大模型微调（四）：基于小参数多模态模型的全量（full）SFT微调

前面我们介绍了、简单展示了其以及总结了一些和；那接下来我们就结合具体的应用场景，微调一个垂类大模型，话不多说，我们开始吧～

2025-03-02 17:34:58 955

原创大模型组件：分词器（tokenizer）

最后，我们再用通俗的话总结一下它的流程：1）输入语言文本给分词器；2）分词器拿到文本信息，根据具体的分词算法（例如：BPE）将文本划分为单个的词元（token）；3）根据对应的词汇表将每个词元对应唯一编码（token ID）；4）分词器输出这些唯一编码给Embeding词嵌入模型；到这里分词器的输入任务就完成了5）词嵌入模型将token ID映射到固定维度的语义空间，生成语义特征张量；6）将语义特征张量添加位置索引等信息后送入transformer模块进行推理；

2025-02-27 15:49:32 1335

原创 StepAudio：语音大模型

Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤），方言（如粤语，四川话）等功能；: 单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能，开源千亿参数多模态模型 Step-Audio-Chat；

2025-02-25 22:26:48 2388 4

原创垂类大模型微调（三）：大模型训练、微调、量化相关理论基础

定义：监督微调是使用高质量的人类标注数据对预训练模型进行进一步训练，使其更好地适应特定任务。作用：提升模型在特定场景下的表现，减少输出与人类期望之间的偏差。过程：使用输入-输出配对数据进行有监督训练。定义：DPO 是一种替代传统强化学习的方法，直接基于偏好数据优化模型参数，而不需要显式构建奖励模型。作用：简化了奖励建模的过程，同时保持了高效性和稳定性。特点不需要单独训练奖励模型。更加高效，适合大规模训练场景。

2025-02-25 08:09:29 1287

原创垂类大模型微调（二）：使用LLaMA-Factory

这里演示对Qwen2.5-0.5B-Instruct-GPTQ-Int4模型进行LoRA微调，大家可以根据垂类大模型微调（一）从魔塔中下载对应模型；目前该工具支持指令监督微调（Alpaca格式）和多轮对话微调（ShareGPT格式）两种数据集格式，这里我们使用指令监督微调指令监督微调指令监督微调；"instruction": "指令（必填）","input": "文本输入（选填）","output": "标签回答（必填）"例如："instruction": "将下面的句子翻译为中文",

2025-02-23 21:38:11 1474

原创垂类大模型微调（一）：认识LLaMA-Factory

高效微调支持支持多种微调技术（如 LoRA、QLoRA 等），显著降低显存消耗，即使在小规模 GPU（如单卡 24GB）上也能训练数十亿参数的模型。提供分布式训练优化，支持多卡并行和混合精度训练，加速训练过程。丰富的模型兼容性支持主流开源 LLM，包括 LLaMA、BLOOM、GPT-2、ChatGLM、Baichuan、Qwen 等。可灵活适配不同模型架构，方便用户快速切换或对比实验。用户友好性提供清晰的命令行接口（CLI）和 Web UI，用户无需深入编码即可配置训练参数、数据集和模型。

2025-02-23 15:25:51 1494

原创 FunASR：语音识别集成工具箱

FunASR是阿里巴巴达摩院开源的一款轻量级语音识别工具包，旨在为开发者提供高效、易用的语音处理解决方案。它集成了多种先进的语音识别技术和模型，支持语音识别（ASR）、语音端点检测（VAD）、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等功能；任务名称主要目标应用场景技术特点ASR将语音转为文本字幕生成、语音助手声学模型+语言模型VAD检测语音活动语音信号预处理时间域或频域特征分析标点恢复添加标点符号自动化文本生成上下文语义理解说话人验证确认语音归属。

2025-02-19 23:00:11 3790

原创深度学习模型常用激活函数集合

激活函数是深度学习模型中的关键组成部分，用于引入非线性特性，使神经网络能够学习复杂的模式和映射关系；神经网络本质上是一个复合函数。如果没有激活函数，无论网络有多少层，其输出都只是输入的线性组合。激活函数通过引入非线性，使模型能够拟合复杂的非线性数据分布；激活函数决定了神经元在给定输入下的输出值，从而控制神经元是否被激活；一些激活函数（如ReLU）具有稀疏性和计算效率高的特点，有助于加快训练过程；

2025-02-18 17:53:22 620

原创 Temperature Parameter:损失函数中的温度参数

在对比损失（如InfoNCE Loss）中，温度参数通常出现在相似度得分的归一化过程中。

2025-02-18 14:36:20 1272

原创滤波器：卡尔曼滤波

卡尔曼滤波器

2025-02-14 17:58:08 6857

原创图像变换：了解透视变换原理及OpenCV实现

图像透视变换是一种将图像从一个视角转换到另一个视角的技术，通常用于校正拍摄角度引起的变形，或者模拟不同视角下的场景。

2025-02-14 10:56:43 2029

原创 vLLM框架：使用大模型推理框架

支持 CUDA 11.8 及以上（推荐 NVIDIA A100/H100，RTX 4090 等消费级卡需注意显存限制）vLLM 专为高效部署大规模语言模型设计，尤其适合高并发推理场景，关于对vLLM的介绍请看。: 至少 20GB（运行 7B 模型），推荐 40GB+（运行 13B/70B 模型）：确保 CUDA 版本匹配，合理选择量化方案。：通过 OpenAPI 兼容接口快速构建服务。：利用连续批处理、动态块分配提升吞吐。：自动合并多个请求，提升吞吐量。：集成视觉模型实现图文联合推理。

2025-02-07 21:01:00 4388

原创 vLLM框架：认识大模型推理框架

vLLM通过创新的显存管理机制，为LLM推理设定了新标准。对于计算机视觉工程师，其技术思路对视觉大模型优化具有借鉴意义，同时为视觉-语言多模态应用提供了高效的推理基座。建议关注其多模态扩展进展，并尝试将PagedAttention思想迁移到视觉模型的显存优化中。

2025-02-07 15:11:53 5430

原创 Deepseek:免费、傻瓜式云端部署deepseek-R1蒸馏模型

魔塔（Modelscope）平台为大家提供了一键部署大模型的平台，本地简单几行代码就可以拥有专属的Deepseek-R1蒸馏模型应用，即便是一窍不通的小白，也可以部署起来，一起来看看吧！这样就部署起来自己专属的Deepseek模型啦，可以在终端与Deepseek进行对话，有兴趣的小伙伴可以尝试一下，如果有一定基础的同学，可以给自己的Deepseek构建一个WebUI界面，创建一个Web服务通过网页调用，建议使用Gradio库进行构建。2、刷新页面查看状态，部署成功后，点击下图中的‘立即使用’；

2025-02-06 15:02:17 1776

原创深度学习模型格式转换：pytorch2onnx（包含自定义操作符）

假设我们想要实现一个自定义的ReLU6操作符。ReLU6是一种常用的激活函数，它与标准的ReLU类似，但有一个上限值 6。首先，我们需要在 C++ 中实现这个自定义操作符，并编译成一个共享库。PyTorch 提供了接口来注册自定义操作符，而 ONNX 则提供了来注册自定义操作符。我们可以在 C++ 中实现ReLU6操作符，并通过 PyTorch 的// 定义自定义的 ReLU6 操作符// 注册自定义操作符接下来，我们需要将这个 C++ 文件编译成一个共享库（例如.so。

2024-12-30 16:40:00 2367

原创 Pytorch常用内置优化器合集

SGD是最基础的优化器之一，它直接根据损失函数的梯度来更新模型参数。每次更新的公式为：θt 是当前的参数值。η 是学习率（learning rate），控制每次更新的步长。gt 是当前参数的梯度。在标准的 SGD 基础上引入了动量项，使得参数更新不仅依赖于当前的梯度，还考虑了之前更新的方向。动量项可以帮助加速收敛，并且有助于穿越平坦的区域（如鞍点）。更新公式为：vt是动量项，表示历史梯度的累积。β是动量系数，通常设置为 0.9。Adam。

2024-12-20 16:41:57 1433

原创模型训练之优化器

优化器在深度学习模型的训练过程中扮演着至关重要的角色，它负责根据梯度更新模型参数，确保模型能够有效地最小化损失函数。优化器不仅要处理梯度问题（如梯度消失和梯度爆炸），还要加速收敛、防止过拟合，并支持分布式训练和动态调整学习率。选择合适的优化器和调整其超参数（如学习率、动量等）是训练成功的关键因素之一。

2024-12-20 15:56:11 1235

原创 Pytorch常用内置损失函数合集

PyTorch 提供了多种内置的损失函数，适用于不同的任务和场景。这些损失函数通常已经优化并实现了常见的归约方式（如mean或sum），并且可以直接用于训练模型。

2024-12-20 15:15:22 1380

原创唇形同步视频生成工具：Wav2Lip

生成器负责根据输入的音频波形生成逼真的面部动画，而判别器则负责区分生成的动画与真实的面部动画；生成器尝试生成与音频同步的面部动画，而两个判别器分别负责判断生成的动画与真实动画的同步性和视觉质量。Wav2Lip是一种用于生成唇形同步（lip-sync）视频的深度学习算法，它能够根据输入的音频流自动为给定的人脸视频添加准确的口型动作。根据github上的README，我们在硬件上需要有Nvidia的显卡，同时需要在python=3.6的环境下运行，这个判别器的目标是提高对声音与嘴型同步性的判断能力。

2024-12-06 20:14:03 2715

原创 SPP：空间金字塔池化

SPP/SPPF金字塔池化

2024-11-19 23:21:57 1725

空空如也

空空如也