@鱼香肉丝没有鱼-优快云博客

原创 Transformer底层原理—位置编码

Transformer模型中的Embedding层将离散词汇转换为连续向量，便于模型学习语义关系。由于Transformer缺乏序列顺序信息，需引入位置编码（Positional Encoding）来补充位置信息。位置编码采用正弦和余弦函数交替生成高维向量，其值域有限且能保持相对位置关系。这种编码方式避免了位置信息对语义的干扰，同时确保模型能有效处理序列顺序。位置编码矩阵与Embedding矩阵相加后输入编码器和解码器，使Transformer能同时利用语义和位置信息进行高效并行计算。

2025-12-16 11:23:55 1100 1

原创 Transformer原理—注意力机制

本文深入解析了Transformer模型及其核心注意力机制的原理。Transformer作为NLP领域的里程碑式架构，通过自注意力机制突破了传统序列模型的局限，实现了并行化处理和信息的高效整合。文章首先回顾了Transformer的发展历程及其衍生模型（如BERT、GPT等）的重要影响；然后从序列模型的基本诉求出发，阐述了样本间关联建模的重要性；最后详细剖析了注意力机制的本质，特别是自注意力机制如何通过计算样本相关性来赋予权重，从而提升模型对序列的理解能力。Transformer的创新设计使其成为当代处理复

2025-12-15 15:42:01 724 1

原创大模型本地部署硬件指南

GPU。

2025-12-07 17:24:54 968 1

原创 QLoRA微调 & GGUF

我们在训练模型的时候，批次越大，模型训练的越快、效果越好，但是如果模型的参数固定是16位的情况下，微调批次batch一般不会设置很大。为了加速模型训练，可以用8位或者4位来替代训练过程中16位的运算，当我们把16位降到8位或者降到4位的时候，显存占用就降低了，批次就可以调整更大，模型训练起来就会更快。这种训练方式并没有改变模型的参数数量，只是降低了模型的计算精度而已。GGUF格式的全名为（），是由团队推出的一种用于存储和部署机器学习模型的文件格式，提到GGUF就不得不提到它的前身。GGML。

2025-12-05 10:46:00 984

原创大模型分布式微调 & Xtuner

微软开源了一个分布式训练deepspeed框架，目前来讲，主流微调工具支持的分布式训练框架都是基于deepseed来实现的，这个框架的特点就是它支持千亿级参数模型的训练，基本上可以适配目前英伟达下面的主流显卡。deepspeed框架的核心目标是降低大模型训练成本，提升显存和计算效率。它其实基于PyTorch这个框架来构建的，支持库。[{# 单轮对话},# 多轮对话},}]单轮对话转换代码如下：# 源数据文件路径# 目标数据文件路径# 读取源数据# 转换数据# 保存转换后的数据。

2025-12-03 23:40:40 849

原创大模型微调项目——微调情绪对话模型

我们提出了一个大型清洁汉语会话语料库（LCCCLCCC-base和LCCC-large。为了保证语料库的质量，设计了严格的数据清洗流水线。该管道涉及一组规则和几个基于分类器的过滤器。诸如攻击性或敏感词、特殊符号、表情符号、语法错误的句子和不连贯的对话等噪音都会被过滤掉。LCCC数据集包含large和base版本，large版本数据很大，基于base数据集选择1000到3000条数据作为样本的输入话题就够了，因为样本本身会做增量扩展（一个问题多个不同的答案）。

2025-12-01 11:37:54 908

原创大模型评估测试—OpenCompass

OpenCompas是书生蒲语公司的一个开源项目，旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集（BenchMarks），方便进行模型的效果评测。目前支持.jsonl和.csv两种格式的数据集。

2025-11-22 18:40:03 957

原创大模型对话模版

各阶段使用的对话模版如下：由于微调框架修改了大模型，故后续都要以微调框架的对话模版为主！！！vllmvllm默认使用大模型自带的对话模版，若要使用自动以的对话模版，需要添加参数。利用现有对话模板，直接配置一个如下的json文件使用。model_name为必填项，可以是LMDeploy内置对话模板名（通过可查阅），也可以是新名字。其他字段可选填。当model_name是内置对话模板名时，json文件中各非null字段会覆盖原有对话模板的对应属性。而当model_name是新名字时，它会把将。

2025-11-20 18:02:07 681

原创 Hugging face微调 GPT-2模型

特性全量微调参数高效微调（PEFT）局部微调更新参数范围全部参数新增的少量参数部分原始参数资源消耗非常高极低中等存储开销整个模型副本很小（仅需保存增量参数）整个模型副本灾难性遗忘风险高风险极低风险中等性能潜力可能最高通常接近全量微调取决于解冻层数易用性简单直接需要选择/配置方法（如LoRA）需要选择解冻层现代建议：对于大语言模型的微调，参数高效微调（PEFT），尤其是LoRA及其变体，已经成为事实上的标准。它以一种非常巧妙的“增量”方式，在性能、效率和灵活性之间取得了绝佳的平衡。

2025-11-12 23:26:18 710

原创 Hugging face微调BERT模型

第一个阶段：需求或者数据沟通，目的是为了搞明白用户想要干什么事，在跟用户沟通的时候，需要拿到他的需求数据；第二阶段：选模型或设计模型，对于做应用开发，现在还用不到设计；第三个阶段：模型的训练，使用上述数据训练模型；第四个阶段：模型效果评估，评估大模型的评分、准确度等；第五个阶段：模型部署；微调是指在预训练模型的基础上，通过进一步的训练来适应特定的下游任务。BERT。

2025-11-05 00:12:22 821

原创 AI-Agent 入门

大语言模型，例如DeepSeek，拥有强大的知识储备和语言理解能力，能够进行流畅的对话、创作精彩的故事，甚至编写代码。然而，它们也⾯临着⼀些难以克服的困境，就像⼀个空有知识却无法行动的巨人。信息滞后：知识库的更新速度有限，无法获取最新的实时信息，例如天气、股价等。这意味着它可能告诉你昨天的天气，或者⼀个小时前的股价，而这些信息可能已经过时了。就像⼀本印刷好的百科全书，内容固定，无法实时更新。缺乏行动力：就像被困在虚拟世界中的大脑，只能提供信息，无法直接与现实世界互动。

2025-10-27 20:22:51 1239

原创大模型微调—LlamaFactory自定义微调数据集

接下来使用弱智吧的数据集微调我自己的模型，首先得给它做个配置：找到data目录里面有一个，然后我们就模仿人家配数据的方式，把我们自己的数据给它配进去：我们把identity东西我们拷贝一份儿。拷贝一份儿，然后给它粘过来找到弱智吧数据路径，给它把填到file_name里面进入到根目录，启动在启动页面我们就可以看到刚才的数据集了。Llama factory支持增加多套数据同时做训练。比如说可以选两个数据集进来。比如弱吧数据集其实就是作为一款这种娱乐性的问答对；比如identity。

2025-10-27 10:05:16 1262

原创 RAG技术与应用—高级篇

Qwen-Agent是一个开发框架。充分利用基于通义千问模型（Qwen）的指令遵循、工具使用、规划、记忆能力。Qwen-AgentDashScope服务提供的Qwen模型服务支持通过OpenAI API方式接入开源的Qwen模型服务RAGAs。

2025-09-30 11:04:34 1017

原创 RAG技术与应用—基础

检索增强生成，是一种结合信息检索（Retrieval）和文本生成（Generation）的技术RAG技术通过实时检索相关文档或信息，并将其作为上下文输入到生成模型中，从而提高生成结果的时效性和准确性。RAG与联网的大模型类似，例如：Bing AI；

2025-09-25 23:08:10 988

原创嵌入模型与向量数据库

向量是一种有大小和方向的数学对象。它可以表示为从一个点到另一个点的有向线段。例如，二维空间中的向量可以表示为xy(x,y)xy，表示从原点00(0,0)00到点xy(x,y)xy的有向线段。以此类推，我可以用一组坐标x0x1xN−1x0x1xN−1表示一个NNN维空间中的向量，NNN叫向量的维度。Embedding向量数据库，是专门为向量检索设计的中间件！高效存储、快速检索和管理高纬度向量数据的系统称为向量数据库。

2025-09-23 23:11:25 1124

原创分布式推理与量化部署

分布式推理部署是一种利用多个计算节点（如服务器、GPU或TPU等）协同完成深度学习模型推理任务的技术。它通过将计算负载分散到多个设备上，以提高处理效率、降低延迟，并支持大规模并发请求。

2025-09-14 21:36:22 1205

原创大模型压缩技术

模型压缩（）是一种通过减少机器学习模型的复杂度、存储占用或计算资源消耗，同时尽量保持其性能的技术，模型压缩算法能够有效降低参数冗余，从而减少存储占用、通信带宽和计算复杂度，有助于深度学习的应用部署。其核心目标是在资源受限的设备（如移动设备、边缘计算设备）上高效部署模型，或加速模型推理/训练过程。人脸识别、人脸特效的模型集成在手机端，如何将高度依赖硬件的模型部署在算力低的移动端：核心就是模型压缩。模型压缩的目的是在不牺牲性能的情况下减少机器学习模型的大小。

2025-09-10 09:30:07 997

原创 LangChain开发入门

LangChain是一套面向大模型的开发框架（SDK）；LangChain是 AGI 时代软件工程的一个探索和原型；学习LangChain要关注接口变更，新版本不会兼容旧版本；numpypytorchtensorflow等框架都是做大模型的训练、预测和推理的。LangChain由创建于2022年10月，它是围绕LLMs（大语言模型）建立的一个框架。LangChain自身并不开发LLMs，它的核心理念是为各种LLMs实现通用的接口，把LLMs相关的组件“链接”在一起，简化LLMs。

2025-09-03 00:33:45 1036

原创大模型微调实战（Lama Factory可视化界面微调）

为了让大模型微调的成本打下来，微软的研究人员开发了低秩自适应（LoRA）技术。LoRA的精妙之处在于：它相当于在原有大模型的基础上增加了一个可拆卸的插件，模型主体保持不变。LoRA随插随用，轻巧方便。对于高效微调出一个定制版的大语言模型来说，LoRA是最为广泛运用的方法之一，同时也是最有效的方法之一。如果你对开源LLM感兴趣，LoRA是值得学习的基本技术，不容错过。由于GPU内存的限制，在训练过程中更新整个模型权重成本很高。例如，假设有一个7B参数的语言模型，用一个权重矩阵WWW表示。

2025-09-01 20:08:53 1501

原创 RAG & Embeddings &向量数据库

LLM的知识不是实时的LLM 可能不知道你私有的领域/业务知识向量是一种有大小和方向的数学对象。它可以表示为从一个点到另一个点的有向线段。例如，二维空间中的向量可以表示为xy(x,y)xy，表示从原点00(0,0)00到点xy(x,y)xy的有向线段。以此类推，我可以用一组坐标x0x1xN−1x0x1xN−1表示一个NNN维空间中的向量，NNN叫向量的维度。openAI对于文本转化为向量的维度为1000多维！

2025-08-23 14:14:05 970

原创模型的私有化部署（Ollama & vLLM & LMDeploy）

魔塔（ModelScope）是由阿里巴巴达摩院推出的开源模型即服务（MaaS）共享平台，汇聚了计算机视觉、自然语言处理、语音等多领域的数千个预训练AI模型。其核心理念是"开源、开放、共创"，通过提供丰富的工具链和社区生态，降低AI开发门槛，尤其为企业本地私有化部署提供了一条高效路径。ModelScope。

2025-08-20 19:44:50 1962

原创 Hugging Face 核心组件介绍

是一个开放的人工智能社区和平台，致力于提供方便易用的自然语言处理（NLP）模型和工具。它的核心价值在于通过快速访问海量预训练模型，并提供端到端的机器学习开发工具链，极大降低了构建智能应用的门槛。在架构上，包含模型库（Model Hub）、数据集库（Datasets）、训练工具（和）、推理部署方案等多个模块，彼此协同支持开发者从模型训练、微调到推理部署的全流程。

2025-08-19 22:56:49 933

原创自然语言处理基础—RNN及其变体

也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象。遗忘门输入门细胞状态输出门也称门控循环单元结构, 它也是传统RNN的变体, 同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象。同时它的结构和计算要比LSTM更新门重置门1）注意力概念。

2025-08-08 00:00:08 1159

原创自然语言处理基础—NLP入门

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程。举个例子:语句：无线电法国别研究分词：['无线电法', '国别', '研究']词作为语言语义理解的最小单元, 是人类理解文本语言的基础。因此也是AI解决NLP领域高阶任务, 如自动问答, 机器翻译, 文本生成的重要基础环节。jieba。

2025-08-06 22:43:13 925

原创深度学习基础—2

我们在构建网络之后，网络中的参数是需要初始化的。我们需要初始化的参数主要有权重和偏置，偏重一般初始化为 0 即可，而对权重的初始化则会更加重要，我们介绍在 PyTorch 中为神经网络进行初始化的方法。

2025-07-31 20:11:31 886

原创深度学习基础—1

人工神经网络（，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络，由众多的神经元连接而成。各个神经元传递复杂的电信号，树突接收到输入信号，然后对信号进行处理，通过轴突输出信号。下图是生物神经元示意图：当电信号通过树突进入到细胞核时，会逐渐聚集电荷。达到一定的电位后，细胞就会被激活，通过轴突发出电信号。

2025-07-31 00:19:38 903

原创梯度下降入门到精通

在优化问题中，无约束最优化问题是一类只涉及变量的取值范围，而不涉及限制条件（如等式约束、不等式约束）的问题。这意味着在无约束最优化问题中，我们只需要优化目标函数本身，而不需要考虑其他限制条件。无约束最优化问题通常形式如下：minf(x)minf(x)minf(x)无约束最优化问题在数学和工程应用中都有广泛的应用，例如在机器学习和神经网络中，我们经常需要对损失函数进行无约束最优化来得到最佳的模型参数。在数学中，许多经典的优化问题，如凸优化、非线性优化、牛顿迭代等都属于无约束最优化问题的范畴。梯度下降法是一个算

2025-07-29 19:22:32 928

空空如也

空空如也