Peter_Monster-优快云博客

本文系统介绍了大语言模型（LLM）的核心概念与技术要点。首先明确LLM定义（超大规模参数模型）及四大特征：参数规模、数据需求、计算需求和泛化能力。从发展历程看，LLM经历了从统计模型到神经网络、预训练模型直至当前大规模生成式模型的演进。重点解析了LLM三大架构（Encoder/Decoder-Only及混合型）及其适用场景。在训练环节，详细说明了数据准备、预训练、微调的全流程及关键数据集。评估体系涵盖人工/自动方法及PPL、BLEU等核心指标。部署部分以VLLM为例，提供从环境配置到性能测试的完整指南。最后

2025-11-24 17:28:22 842

原创 2. 5分钟搞定RNN优化模型：LSTM与GRU

本文对比分析了RNN、LSTM和GRU三种序列模型。RNN存在长序列依赖问题，LSTM通过三个门控机制和细胞状态有效解决了这一问题，但计算复杂度高。GRU作为简化版LSTM，合并门控减少参数量，在保持性能的同时提高计算效率。

2025-11-04 16:29:08 855

原创 1.最简单的方式搞懂RNN是什么

用最简单的方式讲清楚什么叫RNN

2025-10-25 12:14:35 1241

原创 1.10 全连接神经网络的完整训练流程（第二章收尾）

本文介绍了深度学习模型的完整训练流程，以MNIST手写数字识别为例，使用Pytorch实现从数据准备到模型评估的全过程。主要内容包括：1）核心术语解释（Epoch、Batch Size、Iteration）；2）数据加载与预处理；3）网络结构定义与初始化；4）训练循环的实现（前向传播、损失计算、反向传播、参数更新）；5）测试集评估模型性能；6）模型保存方法。通过这个标准流程，读者可以掌握深度学习模型训练的基本框架，为后续学习更复杂模型打下基础。文中提供了可直接运行的代码示例，最终模型在MNIST测试集上能达

2025-10-19 16:59:31 426

原创 1.9 全连接神经网络的参数计算与初始化

本文介绍了全连接神经网络中的参数定义、计算方法及初始化策略。参数分为权重（w）和偏置（b）两类，其数量由相邻层神经元数量决定。计算示例显示，784-128-10结构的网络总参数达101258个。不当的初始化会导致梯度消失或爆炸，因此要保持数值稳定。文中推荐了三种初始化方法：Pytorch默认初始化（适合新手）、Kaiming初始化（专用于ReLU激活）和Xavier初始化（适用于Sigmoid/Tanh）。这些知识为后续学习前向传播奠定了基础。

2025-10-19 16:58:17 377

原创 1.一文读懂CNN（卷积神经网络）

文章介绍了CNN中所有的基础概念，以思维引导方式将知识点引出，方便小白阅读，复习时串联所有知识点...

2025-10-19 15:19:48 1552

原创 2.1 一文读懂正则化和指数加权平均

本文对比了L1/L2正则化和指数加权平均（EWMA）两大机器学习核心概念。采用案例+代码模式解释了什么是指数加权平均

2025-10-18 23:13:55 811

原创 1.8讲道理——什么是反向传播？

反向传播是神经网络中用于计算参数梯度、进而通过优化器更新参数的核心算法，核心逻辑是“从输出层到输入层，沿前向传播的反方向传递误差，并计算各层参数对损失的梯度”。

2025-10-18 20:40:12 1021

原创 1.6 反复咀嚼——梯度下降基础方法

梯度下降算法是机器学习的核心优化方法，通过迭代调整参数最小化损失函数。本文系统梳理了其基础形态：1）核心原理围绕"方向（梯度反方向）与步长（学习率）"展开；2）三类实现方法：BGD（全量计算精度高但效率低）、SGD（单样本计算效率高但震荡大）、Mini-batch（小批量计算兼顾效率与稳定性，成为深度学习标配）；3）实战选择逻辑取决于数据规模与硬件条件。这些基础方法虽少直接用于开发，但为理解后续优化算法（如动量法、自适应学习率等）奠定必要理论基础。

2025-10-18 14:32:54 508

原创 1.7小白也看得懂——梯度下降优化方法演进与对比

本文系统梳理了梯度下降算法的优化演进路线，分为四个阶段：1）基础优化（SGD、牛顿法）解决计算可行性问题；2）动量优化（Momentum、Nesterov）提升收敛稳定性；3）自适应学习率（AdaGrad、RMSprop）实现参数个性化更新；4）融合优化（Adam）综合动量与自适应优势。文章强调优化算法始终围绕"加快收敛"和"稳定训练"两大核心目标展开，呈现从单一问题解决到多目标协同的演进逻辑，并推荐配套视频和开源项目辅助理解。全文150字，完整保留核心技术要点和演进

2025-10-18 12:11:18 1495

原创 1.5损失函数

损失函数是衡量神经网络预测误差的量化工具，用于指导模型参数调整。文章重点介绍了六种常用损失函数。详细说明了不同损失函数的适用场景、计算逻辑及PyTorch实现方法，并强调了使用时的注意事项（如输入格式、是否需要Softmax等）。

2025-10-17 11:59:55 1027

原创 1.4 全连接神经网络的前向传播

本文介绍了全连接神经网络中的前向传播过程，包括理论原理和Pytorch实现。前向传播是指输入数据通过网络各层逐步计算输出结果的过程，主要包含加权求和和激活函数两个计算步骤。文章以手写数字识别网络为例，详细拆解了从输入层到隐藏层再到输出层的计算流程。在Pytorch实现部分，提供了完整的网络类定义代码，包括层结构搭建和前向传播方法实现，并强调了关键注意事项。最后指出前向传播的核心作用是为训练提供预测结果和损失值，以及在实际预测中的快速应用价值。

2025-10-17 08:54:54 986

原创 1.3 非线性激活函数

文章摘要：非线性激活函数是神经网络突破线性模型限制的关键，其核心作用包括：1）使多层网络能表达复杂非线性函数；2）增强模型对非线性数据的拟合能力；3）支持梯度下降优化。ReLU因其计算高效、缓解梯度消失成为CNN首选，Sigmoid/Tanh则适用于特定场景。PyTorch实战中，激活函数需紧跟线性层（如卷积层），形成“线性变换→非线性激活”的基本单元。改进型激活函数（如Leaky ReLU）可解决ReLU的神经元死亡问题。合理选择激活函数是提升模型性能的重要前提。

2025-10-16 20:41:15 949 1

原创 1.2 全连接神经网络的单元结构

本文介绍了神经网络神经元的核心结构和计算过程。神经元由输入、权重、偏置、加权求和、激活函数和输出五部分组成，每个输入对应一个可学习的权重参数。文章详细解释了加权求和公式z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b的计算过程，并强调了激活函数（如ReLU和Sigmoid）在引入非线性特性中的关键作用。通过具体实例演示了神经元从输入到输出的完整计算流程，帮助理解神经网络处理数据的基本原理。这些知识是理解深度学习模型运作机制的基础。

2025-10-16 20:06:11 950

原创 1.1 全连接神经网络整体结构

全连接神经网络由输入层、隐藏层和输出层三层核心结构组成，层间神经元完全连接。输入层接收原始数据（如图片像素），隐藏层进行特征提取，输出层给出预测结果（如分类概率）。其优势在于结构简单，适合处理低维数据，但面对高维数据时会出现参数爆炸问题，导致训练效率低且易过拟合。这种网络是理解更复杂神经网络的基础。

2025-10-16 19:58:43 722

原创 0.PyTorch 张量与模型构建

本文介绍了PyTorch深度学习框架的核心概念与基础操作。首先强调PyTorch并非深度学习前置课程，建议从自动微分开始学习核心概念。主要内容包括：1）PyTorch定义与特点，包括动态计算图、张量计算和自动微分；2）与TensorFlow的对比分析；3）张量的基本概念、创建方法和类型转换；4）张量与NumPy互转；5）标量提取；6）基本运算操作。文章通过表格形式清晰呈现了各种创建方法、运算方式和API对比，为初学者提供了系统的PyTorch入门指南。

2025-10-16 16:47:17 985

原创 Pytorch 框架与经典卷积神经网络笔记引导

本文介绍了PyTorch与卷积神经网络(CNN)的学习路径，推荐通过"基础概念→结构解析→代码实战"的体系化学习方式。课程包含三大部分：基础篇讲解全连接神经网络和PyTorch操作，CNN篇解析经典网络结构，实战篇完成图像分类等项目。学习前需掌握Python基础，安装PyTorch环境(CPU/GPU版本)。建议采用"预习-学习-复习"的迭代式学习方法，逐步构建深度学习知识框架。该教程适合具备Python基础、想系统学习PyTorch和CNN的初学者，通过118个视频

2025-10-16 10:18:21 603

原创 09.朴素贝叶斯

本文介绍了朴素贝叶斯算法的原理与应用。通过生活化的恋爱顾问案例，讲解了条件概率、联合概率和贝叶斯公式的核心概念，重点阐述了朴素贝叶斯"特征条件独立"的假设及其简化计算的优势。针对零概率问题，介绍了拉普拉斯平滑系数的解决方法。最后以商品评论情感分析为例，展示了朴素贝叶斯在文本分类中的实际应用流程，包括数据预处理、模型训练和评估等步骤。该算法简单高效，特别适合小规模多分类任务和文本分析场景。

2025-10-15 17:43:08 830

原创 08.集成算法

摘要：本文系统介绍了集成学习算法，通过组合多个弱模型提升预测性能。重点解析了两种核心方法：Bagging（并行，如随机森林）通过有放回抽样和特征随机减少方差；Boosting（串行，如AdaBoost、GBDT、XGBoost）通过迭代修正残差降低偏差。文章对比了各代算法优劣，指出XGBoost因正则化和工程优化成为工业主流，并提供算法选型指南（小数据用随机森林，复杂任务用XGBoost）。最后以表格总结算法演进逻辑，强调理解"弱模型协同强于单一模型"的思想比调参更重要。（149字）

2025-10-15 11:56:16 1034

原创 07.决策树笔记

决策树是一种既能处理分类也能处理回归任务的树形模型，通过if-else式的规则判断实现预测。其核心在于选择最优特征划分数据，常用指标包括信息增益（ID3）、信息增益率（C4.5）和基尼指数（CART）。为避免过拟合，可采用预剪枝或后剪枝。代码实现上，分类任务使用DecisionTreeClassifier，回归任务用DecisionTreeRegressor，参数设置简单（如max_depth控制树深）。决策树优势在于可解释性强，但需注意特征选择和剪枝策略以平衡模型复杂度与泛化能力。

2025-10-15 11:32:15 794

原创 06.逻辑回归学习笔记

逻辑回归摘要（150字）逻辑回归虽名含"回归"，实为二分类模型，通过sigmoid函数将线性输出转为0-1概率。采用对数损失函数避免MSE的局部最优问题，用梯度下降优化参数。评估时需关注混淆矩阵及衍生指标：精确率（减少误判）、召回率（减少漏判），F1-score平衡二者，ROC-AUC衡量整体分辨力。实战中需处理类别特征（one-hot编码）、特征尺度（标准化）和过拟合（L1/L2正则化）。核心代码涉及LogisticRegression类及precision_score等评估函数，适

2025-10-15 08:58:27 762

原创 05.线性回归评估指标

本文系统介绍了线性回归模型评估的三种核心指标：平均绝对误差（MAE）、均方误差（MSE）和均方根误差（RMSE）。MAE计算简单、对异常值不敏感；MSE放大较大误差影响，适合作为优化目标；RMSE兼具量纲一致性和数学优势。文章通过对比表格清晰展示三者的特性差异，并针对不同场景给出使用建议。最后提供了Python实现代码，包括scikit-learn和手动计算两种方式，帮助读者全面掌握模型评估方法。实际应用中建议综合多个指标进行评估，以获得更可靠的模型性能判断。

2025-10-13 16:38:00 829

原创 04.梯度下降算法笔记

本文摘要介绍了Python中常用的梯度下降优化算法及其实现方式。主要内容包括：机器学习库中的主要优化器类型： SGD（随机梯度下降） Adam（最流行的自适应学习率算法） RMSprop（适合非平稳目标） Adagrad（适合稀疏数据） Adadelta（Adagrad改进版）优化器选择建议：默认选择Adam/AdamW 追求最佳性能可用SGD+Momentum 稀疏数据推荐Adagrad/RMSProp 具体实现方法：通过scikit-learn的SGDClassifier/SGDRegresso

2025-10-13 16:04:17 348

weixin_63182000的博客

原创深入探索embedding和Rerank

原创 Embedding与Rerank模型通俗易懂教学指南

原创 LangChain到底是什么？

原创漫谈提示词工程

原创大语言模型（LLM）架构核心解析（干货篇）

原创传统KV缓存的局限性与现代解决方案及软硬件协同优化

原创 Transformer注意力机制演进笔记：从MHA到GQA

原创模型量化技术全解析：从理论到工程实践

原创大模型核心笔记