橙子小哥的代码世界-优快云博客

原创【大模型RAG】（附代码）一站式打造个人知识库：Milvus 2.5 × BGE × BM25 × GPT - RAG 从 0 到 1 实战笔记

如何把散落在本地硬盘、NAS、网盘乃至企业 Wiki 里的海量文档，转化成可随问随答的「个人 ChatGPT」？本文以Milvus 2.5为向量数据库底座，结合生成稠密向量、内置倒排索引实现全文检索，并使用做轻量级重排，最终把检索结果注入GPT-4Prompt，形成端到端Hybrid RAG（Retrieval-Augmented Generation）问答链。全文超过一万字，力求将代码、原理、部署、调优、运维、安全、成本。

2025-06-09 23:58:45 1560

原创【大模型RAG】Docker 一键部署 Milvus 完整攻略

Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装，官方提供了 Docker Compose 编排脚本，可一键启动 Milvus、etcd 及 MinIO 容器并暴露 19530 和 9091 端口【】【】。为了加速国内安装，推荐使用腾讯云镜像或 FastGit 替代 GitHub 地址拉取 Compose 文件【】【】。数据持久化通过在 Compose 中将宿主机目录挂载到容器的 /var/lib/milvus 实现，首次启动后宿主机指定目录下会生成

2025-06-08 18:57:41 4176

原创【大模型RAG】六大 LangChain 支持向量库详细对比

摘要：本文系统对比了LangChain官方支持的六大向量数据库（Chroma、Elasticsearch、Milvus、Redis、FAISS、Pinecone），分析其特性、适用场景与性能边界。Chroma轻量易用，适合本地原型；Elasticsearch擅长混合检索（关键词+向量）；Milvus支持GPU加速与海量数据；Redis实现亚毫秒级语义缓存；FAISS适合研究与中小规模测试；Pinecone提供无运维托管服务。选型需综合数据规模、延迟、成本与运维能力，例如：初创团队可优先Pinecone，混

2025-06-05 12:58:20 1129

原创企业 RAG 系统模型选型与部署综述

例如，中国某大型银行构建了面向内部员工的知识问答助手，采用 ChatGLM2-6B 模型配合银行政策文件库，实现了对业务流程、合规要求的准确回答。其二，对于一些复杂或自定义的模型结构，转换为ONNX可能遇到不支持的算子，需要额外实现自定义Kernel或fallback，增加部署难度，并可能降低推理效率。底层为可插拔的大语言模型（支持本地部署 Qwen、Baichuan、ChatGLM 等或OpenAI云模型），中间为RAG检索增强模块（负责向量检索、结果过滤及与LLM的融合），上层为业务应用接口层。

2025-06-01 00:00:45 900

原创【大模型部署】mac m1本地部署 ChatGLM3-6B 超详细教程

在 mac m1 16G 上完全离线的本地模型目录上，跑通官方 ChatGLM3-6B

2025-05-31 22:33:27 1448 2

原创【大模型/MCP】MCP简介

MCP 的简介,以及优势对比与简单python案例

2025-05-29 21:09:33 1140

原创【大模型MCP】MCP 深度解析：AI 时代的「USB-C」接口——原理、对比、实战代码与行业落地

MCP 由 Anthropic 于 2024 年底提出，借助 JSON-RPC 2.0 消息格式和 WebSocket 长连接，为大模型与外部工具/数据源之间提供统一、实时、双向的调用规范。2025 年 3 月正式版发布后，OpenAI Responses API、Google Gemini SDK、Replit、Sourcegraph Cody 等均宣布兼容，形成涵盖 IDE、区块链、云服务及企业知识库的生态链。相较 REST/GraphQL，MCP 具备调用集中、实时推送、批量/通知支持与 JSON S

2025-05-29 21:00:17 1019

原创【RAG】一文读懂：Tokenizer 与 Embedding 的核心区别和模型选型以及如何用原生 Encoder 生成中文语义向量（附带 C-MTEB 中文句向量模型 TOP 10 排行榜）

在构建 RAG 或检索系统时，如何选择embedding 模型，确实是一个难题，本文给出embedding 模型和Tokenizer的区别，并给出当前企业排名前十的模型以及建议。

2025-05-28 00:55:55 974

原创【大模型微调】3万字详解大模型PEFT高效微调：从 P-Tuning 到 LoRA/QLoRA/AdaLoRA/DoRA/EDoRA 附代码使用详解

随着大规模预训练模型在各行各业落地，传统的全量微调成本高昂且难以规模化。本文回顾了 2019–2025 年间参数高效微调（PEFT）的演进路径：从在每层插入“小瓶颈”适配器的 Adapter-Tuning，到影响每层注意力的 Prefix-Tuning/Prompt-Tuning，再到零延迟、可合并的低秩 LoRA 及其衍生系列（QLoRA、AdaLoRA）、最终稳定收敛的 DoRA/EDoRA。我们详细剖析了每种方法的原理、插层位置、典型超参及优缺点，并提供了 GPT-2 + 🤗 PEFT ≥ 0

2025-05-26 00:32:46 1163 1

原创【大模型提示词】面向超大规模模型的提示词工程

让同一基座模型快速“贴题”。常见做法：Prefix/Prompt-Tuning、Adapter-Tuning、LoRA 及 QLoRA。：提示工程关心“问得巧不巧”，PEFT 关心“改得省不省”；三招提示法+三类 PEFT 共同撑起 2025 年企业级 LLM 落地：前者解决“怎么问”，后者解决“如何接线”。用多任务「指令→答案」再训练一次，让模型学会“看到指令就执行”：先用大量“指令→答案”微调，让模型学会“听指令”。：把少量“示例→答案”塞进同一次输入，靠语言模型的。

2025-05-25 00:00:09 688

原创【深度学习】损失“三位一体”——从 Fisher 的最大似然到 Shannon 的交叉熵再到 KL 散度，并走进 PET·P-Tuning微调·知识蒸馏的实战

1912 Fisher 用最大似然把「让数据出现概率最高」变成参数学习；1948 Shannon 把交叉熵解释成「最短平均编码长度」；1951 Kullback-Leibler 用相对熵量化「多余信息」。三条历史线落到今天深度学习同一个损失——交叉熵。下面按时间 → 问题 → 数学 → 代码的顺序拆解，并演示它们在二/多分类、知识蒸馏（含温度 T）和 PET 软模板微调里的角色。

2025-05-24 23:42:11 885

原创【大模型微调】高效微调方法综述：P-Tuning软提示与lora低秩微调附案例代码详解

本文系统回顾了大规模预训练语言模型在2025年的主流微调策略，重点聚焦于软提示（Soft Prompt）与参数高效微调（PEFT）两大类方法。首先比较了 Prompt Tuning 与 P-Tuning 的差异，阐明了前者直接优化提示向量、后者通过小型网络对提示嵌入进行编码的技术特点。继而介绍了 LoRA（Low-Rank Adaptation）与 QLoRA 在 Transformer 层注入低秩分解和 4-bit 量化的原理与实践优势，展示了如何将参数更新量降至千分之一并大幅降低显存占用。最后结合 BE

2025-05-23 23:59:41 867

原创【大模型微调】PET,Prompt Tuning,P Tuning,Lora,Qlora 微调的简介

QLoRA在LoRA之上先将预训练模型量化至4-bit（NF4），再冻结量化权重并仅训练LoRA分支，显存占用降低近3倍，却保持与16-bit LoRA几乎相同的性能，被用于在单块48 GB GPU上微调65B参数模型（如Guanaco）至近ChatGPT水平。LoRA于2021年问世，通过冻结Transformer的主干权重，在每层线性映射旁支注入两段低秩矩阵 A 与 B，仅训练 A,B，可训练参数量减少约10,000倍，且推理阶段无额外延迟。

2025-05-23 23:14:45 892 1

原创【大模型位置编码】2万5千字详解：Transformer 位置编码的演进历程：从正余弦到可学习，到相对位置，旋转位置RoPE，线性偏置ALiBi 与多模态到deepseek R1的位置编码

Transformer 模型需要注入位置信息来理解序列顺序。从原始 Transformer 采用的正弦绝对位置编码，到 BERT/GPT 等使用的可学习绝对位置嵌入，再到 Transformer-XL、T5 引入的相对位置编码，以及近年流行的旋转位置编码 RoPE 和线性偏置位置编码 ALiBi，位置编码技术不断演进。此外，在视觉和多模态模型中还发展出 2D/3D 位置编码方案。本文将全面介绍这些位置编码方法产生的背景、数学原理、优缺点，并列举采用它们的中英文主流大模型（如 LLaMA、BLOOM、De

2025-05-22 22:23:39 1518

原创【大模型优化】深入理解 Pre-LayerNorm ：让 Transformer 训练更稳

超深 Transformer 与大语言模型（LLM）时代，归一化策略直接决定了模型能否稳定收敛、推理性能能否最大化。把归一化层从 “残差之后” 挪到 “子层之前”（Pre-LayerNorm，Pre-LN），再将传统 LayerNorm 简化为 RMSNorm——只做均方根缩放、不再减均值——是 GPT-3、LLaMA-4、DeepSeek-V3 等主流 LLM 的标准做法。Pre-LN 让每一层在进入注意力或前馈前就保持单位尺度，显著缓解梯度爆炸/消失；RMSNorm 进一步减少 7-64 % 归一化 F

2025-05-22 00:01:01 1003

原创【大模型优化】transformer归一化层优化：深度解读 RMSNorm （Root Mean Square Layer Normalization，均方根层归一化）

导读：RMSNorm 把传统 LayerNorm 的“减均值（centering）+ 除标准差（scaling）”简化为“直接除以向量均方根 (Root Mean Square, RMS，均方根)”。这一改动让归一化既更省算又同样稳定，因而成为 LLaMA-2/3/4、DeepSeek-V3 等主流大语言模型的默认配置。本文从数学原理、效率优势、典型落地案例到工程迁移步骤，全方位讲透为什么要用 RMSNorm、何时用 RMSNorm、怎么用 RMSNorm。

2025-05-21 23:36:57 1667 1

原创【大模型优化】Multi-Query Attention：传统自注意力（ Self-Attention）优化显存和加速方案

Multi-Query Attention 通过共享 Key / Value、仅为每个头保留独立 Query，使注意力计算的时间复杂度不变、显存使用与 I/O 成本成倍下降；在 GPT-NeoX-20B 长序列基准中将推理速度提升 30-40%，显存削减约 60%。

2025-05-21 23:18:24 1193

原创【大模型优化】FlashAttention：传统自注意力（ Self-Attention）优化加速实现

FlashAttention 是一套专为 GPU 优化的精确自注意力（Self-Attention）实现，通过“输入/输出感知”（IO-awareness）和块化（Tiling）策略，利用片上 SRAM 缓存大幅降低对高带宽显存（HBM）的访问，进而在保持数值精度的前提下实现 1.5×–3× 的训练与推理速度提升，同时将显存峰值降低 50% 以上。本文从背景动机、核心优化点、使用案例、性能评测及未来演进等方面，深入剖析 FlashAttention 的设计与应用，并给出完整的教程示例代码，帮助读者快速上手

2025-05-21 22:51:35 1085

原创【大模型优化】为什么要用“人类反馈强化学习（RLHF）”以及它的大致流程

在 RLHF（Reinforcement Learning from Human Feedback）的流程中，“重复上述过程多次” 指的并不是把监督微调（SFT）和奖励模型训练（RM）也都重新跑一遍，而是指在第三阶段——也就是使用奖励模型＋PPO 来对策略模型（policy）进行强化学习微调（RFT）的循环过程不停地迭代。具体来说，整个 RLHF 通常分三大步：1. 监督微调（Supervised Fine-Tuning, SFT）：用人工编写或标注的示例教会模型基本的问答格式和初步能力，一次性

2025-05-21 20:52:39 642

原创【大模型】深入浅出 MoE 模型：从传统 Transformer 到 DeepSeek-V2 的稀疏专家解析

MoE 是一种将多个专门化子模型（专家）组合在一起，并使用一个门控函数（gating）为每个输入动态分配最合适专家的方法，能够高效学习复杂数据分布。在深度学习中，Mixture-of-Experts 通常将原本在单一路径上执行的前馈网络（FFN）拆分为 n 个并行专家，每个专家拥有独立参数集，门控网络根据输入分配稀疏激活模式。

2025-05-21 20:14:28 977

原创【大模型优化】KV 缓存与 MLA（Multi‐Head Latent Attention）压缩之间的关系，以及它们在 Decoder-Only MoE 模型中的协同方式

KV缓存技术在自回归生成模型中扮演着关键角色，通过存储历史token的Key/Value矩阵，避免了重复计算，显著降低了推理复杂度。然而，随着上下文长度的增加，缓存体量线性增长，成为硬件存储和通信的瓶颈。MLA（Multi-Head Latent Attention）技术通过低秩投影将全维度的K/V矩阵压缩为较小的潜在矩阵，极大减少了缓存体积和通信开销。将MLA与KV缓存结合，不仅保持了生成质量，还将显存占用降至原先的6.7%，并提升了推理吞吐率5.8倍。此外，MLA与MoE（Mixture-of-Expe

2025-05-21 19:52:57 866

原创【大模型】GPT 等decoder系列常见的下游任务

本文介绍了一种基于Transformer（如GPT/Decoder-Only模型）的统一架构，用于处理多种自然语言处理（NLP）任务。核心思路是使用同一个Transformer作为特征抽取器，通过在输入端拼接不同格式的token序列（如Start、Delim、Extract等特殊标记），并在输出端接上任务特定的小头（task-specific head），微调时仅训练这些新加层。文章通过四个例子（文本分类、文本蕴涵、文本相似度、多选/常识推理）展示了如何通过调整输入序列和输出头来适配不同任务。这种方法的优势

2025-05-21 18:25:09 1046

原创【深度学习】BERT 作为Transformer的Encoder 为什么采用可学习的位置编码

本文探讨了BERT模型在位置编码上选择可学习（learned）位置嵌入而非原始Transformer中的正弦/余弦（sinusoidal）编码的原因。主要分析了BERT选择learned positional embeddings的四大核心原因：实现与推理效率、固定最大长度、领域自适应能力以及参数代价微小。通过实验和社区实证，本文对比了两种编码方式在下游任务中的性能差异，发现learned编码在性能和资源消耗上更具优势。此外，本文还对比了其他主流模型如GPT系列在位置编码上的选择，指出BERT的设计选择符合

2025-05-20 23:41:06 914

原创【大模型】大语言模型的评估指标

统计参考文本中的所有 n-gram 总数，以及这些 n-gram 在机器生成文本中被“召回”了多少，并以召回率形式给分（召回率＝召回 n-gram 数／参考文本中 n-gram 总数）。：统计译文中每个 n-gram 在参考译文中出现的次数（最多算参考中出现次数），并除以译文中该 n-gram 的总数，得到每个阶数的匹配度。困惑度（PPL）是衡量语言模型预测下一个词不确定性的指标，本质上是测试集上交叉熵的指数形式，值越低说明模型越不“困惑”，预测越准确。支持多种子指标，更灵活。

2025-05-20 22:44:28 986

原创【知识图谱】电商行业的完整技术实践教程(5万字完结篇)

所有可能的实体对：(“Mate40”,“华为”), (“Mate40”,“手机”), (“华为”,“手机”)。送入关系模型分类，预期输出 (“Mate40”,“华为”): 品牌, (“Mate40”,“手机”): 属于类别, (“华为”,“手机”): 无关系。，定义了图谱中概念和关系的类型层次结构，相当于知识图谱的“纲领”和“schema”。训练完成后，当模型看到新的句子，比如“苹果的MacBook笔记本性能强大”，识别出实体“苹果”(品牌)和“MacBook”(产品)后，就能正确输出关系“品牌”。

2025-05-19 23:04:10 1704

原创【知识图谱】从规则到大模型：知识图谱信息抽取实体NER与关系RE任务近10年演进发展详解

本文回顾了关系抽取与实体抽取领域的经典与新兴模型，清晰地梳理了它们的出现时间与核心创新，并给出在 2025 年不同资源与场景下的最佳实践推荐。文章引用了 BiLSTM‑CRF、BiLSTM‑CNN‑CRF、SpanBERT、LUKE、KnowBERT、CasRel、REBEL、UIE 等模型的原始论文与权威来源，帮助读者全面、系统地理解信息抽取技术的发展脉络与应用指南。

2025-04-22 00:00:27 1398

原创【深度学习】从零开始构建 Transformer：完整代码、原理解析：《Attention Is All You Need》

本文全面解析了 Transformer 模型的原理与实现，详细介绍了模型背景、核心技术、各模块设计及代码实现。文章从词嵌入、位置编码、注意力机制、多头注意力、前馈网络、层归一化到残差连接，逐层剖析 Transformer 模型的设计思路，并提供了完整的 PyTorch 代码实现。文中还讨论了掩码生成和参数初始化的细节，为读者深入理解 Transformer 模型及其优化提供了实战指南。无论你是 NLP 新手还是深度学习专家，都能从中获得启发，助力你在实际项目中成功应用 Transformer 模型。

2025-03-30 00:45:03 951

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

【大模型RAG】（附代码）一站式打造个人知识库：Milvus 2.5 × BGE × BM25 × GPT - RAG 从 0 到 1 实战笔记

【深度学习CV】图像分类如何训练一个高效的 图像分类模型：手工设计CNN、开源模型resnet到GPU优化

深度学习循环神经网络案例讲解-基于 PyTorch 的中文歌词生成-RNN，LSTM,GRU 从数据预处理到预测全流程详解

深度学习多分类任务的一站式解决方案！从数据预处理到混淆矩阵，手把手教你做手机价格预测

机器学习【KMeans聚类分析实战】用户分群聚类详解-SSE、CH 指数、SC全解析，实战电信客户分群案例

从 ID3 到 CART：一文看懂决策树核心原理，实战 Titanic 乘客生存预测

【计算机视觉基础CV】03-深度学习图像分类实战：鲜花数据集加载与预处理详解

深度学习03-神经网络 5 (完结篇) - pytroch手机价格分类案例讲解

空空如也

【深度学习CV】图像分类如何训练一个高效的图像分类模型：手工设计CNN、开源模型resnet到GPU优化