爱吃菠萝的程序员-优快云博客

原创大模型快速部署技术学习笔记

它将 ONNX 模型作为输入，并在其之上提供一个高效的运行时环境，针对不同的硬件提供商（如 NVIDIA, Intel, AMD, ARM）都有相应的优化执行提供程序。：开放神经网络交换格式，是一个开放的格式，用于表示深度学习模型。：Triton在接收到请求后，调用优化后的后端（如TensorRT或ONNX Runtime）在GPU上执行高效的INT8或FP16计算。：使用TensorRT或ONNX Runtime的量化工具，对ONNX模型进行INT8量化，生成优化后的引擎或量化后的ONNX模型。

2025-09-22 00:04:39 451

原创大模型CI/CD管道构建学习笔记

大模型技术的快速发展对CI/CD管道提出了更高的要求（如支持多模态、提示词版本管理等），但以上述原则和工具为基础，可以构建出适应性强、稳健可靠的大模型交付体系。：模型的评估不再是简单的准确率，涉及众多维度（如毒性、真实性、逻辑性、指令跟随能力等）的综合评估。数据科学家将代码（模型架构、训练脚本）、配置文件（超参数）、评估脚本提交到Git仓库。：通过版本控制（代码、数据、模型）和自动化流程，确保每一步都可追踪、可复现。记录实验过程中的超参数、指标、输出文件（如模型）和代码状态，便于比较和复现。

2025-09-22 00:02:01 708

原创大模型推理加速学习笔记

用一个已经训练好的、庞大而精确的模型（“教师模型”）来指导一个较小的模型（“学生模型”）进行训练。LLM生成Token是串行的（Token_{n+1}依赖于 Token_{0:n}），这是推理的主要延迟来源。生成新Token时，只需计算当前Token的Query向量，并与缓存的历史KV向量进行注意力计算。：现代硬件（如GPU的Tensor Cores）有专门的整数计算单元，执行低精度运算更快、更节能。：在训练或微调过程中模拟量化效应，让模型适应低精度，通常能获得比PTQ更好的精度，但成本更高。

2025-09-20 02:38:49 1512

原创大模型微调（Fine-tuning）学习笔记

它首先将预训练模型量化为4-bit（使用NF4等量化方法），然后冻结这个4-bit的模型，在此基础上添加LoRA适配器进行微调。不是为所有权重矩阵都分配固定的秩 r，而是根据权重的重要性动态调整 A和 B的秩，将更多的参数预算分配给更重要的模块。其中，W的维度是 d x k，而 A是 d x r，B是 r x k，秩 r << min(d, k)。：每个微调任务都会产生一个与原模型大小相当的副本（如一个7B的模型微调后产生一个7B的新模型）。：收集和清洗高质量的数据集，格式为指令-输出对（对于指令微调）。

2025-09-20 02:34:44 687

原创主流大模型学习笔记

大语言模型（Large Language Model, LLM）是一种基于深度学习（特别是Transformer架构）的海量参数模型，通过在极大规模的文本数据集上进行预训练，获得强大的语言理解、生成和推理能力。：MoE（混合专家）架构成为新趋势，它用更低的计算成本换取了更大的模型容量，是未来发展的关键方向（如Mixtral, DeepSeek-V3）。：基于千亿大模型，自发布之初就明确了“长文本”、“自研闭源”、“toC”等特色标签，支持超长无损上下文处理，体现了其在大模型技术上的突破。

2025-09-20 02:31:37 1762

原创 Transformer 与注意力机制学习笔记

一个很好的类比是：人类在阅读一句话时，不会平等地看待每个词。它的核心思想是：在处理某个元素时，赋予序列中其他元素不同的重要性（权重），从而“关注”与当前任务最相关的信息。编码器负责将输入序列（如一句英文）压缩成一个富含信息的上下文向量（Context Vector）。在 Transformer 出现之前，主导序列处理任务（如机器翻译、文本生成）的主要是循环神经网络（RNN）及其变体（LSTM, GRU）。输出层：解码器的最终输出会通过一个线性层和一个 softmax 层，来预测下一个词的概率分布。

2025-09-19 02:28:32 581

原创循环神经网络（RNN）中的梯度消失问题学习笔记

梯度消失问题（Vanishing Gradient Problem）是指在深度神经网络（特别是RNN）中，当误差梯度从输出层向输入层反向传播时，梯度值会指数级减小，导致较早层的权重几乎不更新。由于包含权重矩阵W和激活函数的导数σ′，当使用sigmoid或tanh激活函数时，这些导数值通常小于1（sigmoid导数最大为0.25，tanh导数最大为1）。RNN在处理长序列时，需要将梯度通过多个时间步反向传播。

2025-09-19 02:18:23 649

原创卷积神经网络（CNN）可视化学习笔记

中的过滤器和特征图来理解网络的工作原理和学习到的特征，可以帮助深度学习研究者更好地理解卷积的概念和原理，从而更好地设计和优化卷积神经网络。通过可视化，研究者可以更清晰地看到卷积运算中的每一个步骤，包括输入、卷积核、卷积操作和输出，从而更好地理解卷积的本质和作用。将输入图像的每个像素与网络中某一层的每个滤波器的响应值相乘，并将结果相加，得到一个热力图，用于可视化网络对输入图像的响应，显示图像中哪些区域对分类决策贡献最大。将网络中某一层的特征图可视化出来，以便观察网络在不同层次上学到的特征。

2025-09-19 02:14:32 568

原创特征重要性分析学习笔记

在机器学习和数据科学项目中，我们通常面对的是高维数据集，其中包含大量特征（变量）。有些特征冗余，有些无关，甚至有些噪声特征会降低模型性能。基于树（如决策树、随机森林、梯度提升树GBDT/XGBoost/LightGBM）的方法内置了最自然、最直接的特征重要性度量方式。对于线性模型（如线性回归、逻辑回归、Lasso、Ridge），特征重要性可以通过检查模型系数（权重）来获得。特征重要性分析是一系列用于评估每个输入特征对于构建机器学习模型贡献度的技术。特征重要性的计算方法高度依赖于所使用的模型。

2025-09-17 22:27:03 581

原创决策树剪枝学习笔记

它通过递归地将数据集分割成不同的子集，从而形成一个树形结构，每个内部节点代表一个属性上的测试，每个分支代表一个测试结果，而每个叶节点代表一种类别或预测值。它的核心思想是通过主动剪掉树的一些子树或分支，来简化模型的复杂度，从而提升模型的泛化能力。这是一种典型的以偏差的小幅增加来换取方差的大幅降低的策略。决策树的工作原理基于一系列规则，这些规则是通过对训练数据的学习得到的。让决策树充分生长（完全生成），然后自底向上地评估每个分支，如果剪掉该分支能带来模型泛化能力的提升，就将其替换为一个叶节点。

2025-09-17 22:18:38 1524

原创线性回归正则化学习笔记

当特征数量较多或特征间存在多重共线性时，OLS容易产生过拟合问题，即模型在训练集上表现很好但在测试集上泛化能力差。线性回归模型试图通过学习特征与目标变量之间的线性关系来进行预测。实际应用中应根据具体问题选择适当的正则化方法，并通过交叉验证确定最佳参数。通常使用k折交叉验证来选择最优的λ值，平衡偏差和方差。其中λ是正则化参数，控制惩罚强度。是假设函数，y是误差值。

2025-09-17 22:15:35 257

原创机器学习基础框架学习笔记

静态图在执行前需要先定义完整的计算图结构，然后才能执行计算。图的优化在编译阶段完成，执行效率高但灵活性较低。动态图在执行时动态构建计算图，每个操作立即执行并返回结果。更易于调试和直观理解，但运行时开销较大。

2025-09-16 20:37:06 559

原创 FastAPI学习笔记

FastAPI是一个现代化、高性能的Python Web框架，专为构建API而设计。它具有以下核心优势：1）高性能，媲美Node.js和Go；2）快速开发，基于Python类型提示减少错误；3）自动生成交互式API文档；4）支持异步编程。框架提供依赖注入、中间件、数据库集成（SQLAlchemy/NoSQL）、WebSocket和GraphQL支持等丰富功能。安装简单，通过uvicorn运行，适合开发RESTful API和实时应用。其模块化设计、自动验证和性能优化特性使其成为Python生态中高效的API

2025-09-14 23:38:20 735 1

liqin1979的博客