- 博客(34)
- 收藏
- 关注
原创 大模型核心笔记
本文系统介绍了大语言模型(LLM)的核心概念与技术要点。首先明确LLM定义(超大规模参数模型)及四大特征:参数规模、数据需求、计算需求和泛化能力。从发展历程看,LLM经历了从统计模型到神经网络、预训练模型直至当前大规模生成式模型的演进。重点解析了LLM三大架构(Encoder/Decoder-Only及混合型)及其适用场景。在训练环节,详细说明了数据准备、预训练、微调的全流程及关键数据集。评估体系涵盖人工/自动方法及PPL、BLEU等核心指标。部署部分以VLLM为例,提供从环境配置到性能测试的完整指南。最后
2025-11-24 17:28:22
842
原创 2. 5分钟搞定RNN优化模型:LSTM与GRU
本文对比分析了RNN、LSTM和GRU三种序列模型。RNN存在长序列依赖问题,LSTM通过三个门控机制和细胞状态有效解决了这一问题,但计算复杂度高。GRU作为简化版LSTM,合并门控减少参数量,在保持性能的同时提高计算效率。
2025-11-04 16:29:08
855
原创 1.10 全连接神经网络的完整训练流程(第二章收尾)
本文介绍了深度学习模型的完整训练流程,以MNIST手写数字识别为例,使用Pytorch实现从数据准备到模型评估的全过程。主要内容包括:1)核心术语解释(Epoch、Batch Size、Iteration);2)数据加载与预处理;3)网络结构定义与初始化;4)训练循环的实现(前向传播、损失计算、反向传播、参数更新);5)测试集评估模型性能;6)模型保存方法。通过这个标准流程,读者可以掌握深度学习模型训练的基本框架,为后续学习更复杂模型打下基础。文中提供了可直接运行的代码示例,最终模型在MNIST测试集上能达
2025-10-19 16:59:31
426
原创 1.9 全连接神经网络的参数计算与初始化
本文介绍了全连接神经网络中的参数定义、计算方法及初始化策略。参数分为权重(w)和偏置(b)两类,其数量由相邻层神经元数量决定。计算示例显示,784-128-10结构的网络总参数达101258个。不当的初始化会导致梯度消失或爆炸,因此要保持数值稳定。文中推荐了三种初始化方法:Pytorch默认初始化(适合新手)、Kaiming初始化(专用于ReLU激活)和Xavier初始化(适用于Sigmoid/Tanh)。这些知识为后续学习前向传播奠定了基础。
2025-10-19 16:58:17
377
原创 2.1 一文读懂正则化和指数加权平均
本文对比了L1/L2正则化和指数加权平均(EWMA)两大机器学习核心概念。采用案例+代码模式解释了什么是指数加权平均
2025-10-18 23:13:55
811
原创 1.8讲道理——什么是反向传播?
反向传播是神经网络中用于计算参数梯度、进而通过优化器更新参数的核心算法,核心逻辑是“从输出层到输入层,沿前向传播的反方向传递误差,并计算各层参数对损失的梯度”。
2025-10-18 20:40:12
1021
原创 1.6 反复咀嚼——梯度下降基础方法
梯度下降算法是机器学习的核心优化方法,通过迭代调整参数最小化损失函数。本文系统梳理了其基础形态:1)核心原理围绕"方向(梯度反方向)与步长(学习率)"展开;2)三类实现方法:BGD(全量计算精度高但效率低)、SGD(单样本计算效率高但震荡大)、Mini-batch(小批量计算兼顾效率与稳定性,成为深度学习标配);3)实战选择逻辑取决于数据规模与硬件条件。这些基础方法虽少直接用于开发,但为理解后续优化算法(如动量法、自适应学习率等)奠定必要理论基础。
2025-10-18 14:32:54
508
原创 1.7小白也看得懂——梯度下降优化方法演进与对比
本文系统梳理了梯度下降算法的优化演进路线,分为四个阶段:1)基础优化(SGD、牛顿法)解决计算可行性问题;2)动量优化(Momentum、Nesterov)提升收敛稳定性;3)自适应学习率(AdaGrad、RMSprop)实现参数个性化更新;4)融合优化(Adam)综合动量与自适应优势。文章强调优化算法始终围绕"加快收敛"和"稳定训练"两大核心目标展开,呈现从单一问题解决到多目标协同的演进逻辑,并推荐配套视频和开源项目辅助理解。全文150字,完整保留核心技术要点和演进
2025-10-18 12:11:18
1495
原创 1.5损失函数
损失函数是衡量神经网络预测误差的量化工具,用于指导模型参数调整。文章重点介绍了六种常用损失函数。详细说明了不同损失函数的适用场景、计算逻辑及PyTorch实现方法,并强调了使用时的注意事项(如输入格式、是否需要Softmax等)。
2025-10-17 11:59:55
1027
原创 1.4 全连接神经网络的前向传播
本文介绍了全连接神经网络中的前向传播过程,包括理论原理和Pytorch实现。前向传播是指输入数据通过网络各层逐步计算输出结果的过程,主要包含加权求和和激活函数两个计算步骤。文章以手写数字识别网络为例,详细拆解了从输入层到隐藏层再到输出层的计算流程。在Pytorch实现部分,提供了完整的网络类定义代码,包括层结构搭建和前向传播方法实现,并强调了关键注意事项。最后指出前向传播的核心作用是为训练提供预测结果和损失值,以及在实际预测中的快速应用价值。
2025-10-17 08:54:54
986
原创 1.3 非线性激活函数
文章摘要: 非线性激活函数是神经网络突破线性模型限制的关键,其核心作用包括:1)使多层网络能表达复杂非线性函数;2)增强模型对非线性数据的拟合能力;3)支持梯度下降优化。ReLU因其计算高效、缓解梯度消失成为CNN首选,Sigmoid/Tanh则适用于特定场景。PyTorch实战中,激活函数需紧跟线性层(如卷积层),形成“线性变换→非线性激活”的基本单元。改进型激活函数(如Leaky ReLU)可解决ReLU的神经元死亡问题。合理选择激活函数是提升模型性能的重要前提。
2025-10-16 20:41:15
949
1
原创 1.2 全连接神经网络的单元结构
本文介绍了神经网络神经元的核心结构和计算过程。神经元由输入、权重、偏置、加权求和、激活函数和输出五部分组成,每个输入对应一个可学习的权重参数。文章详细解释了加权求和公式z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b的计算过程,并强调了激活函数(如ReLU和Sigmoid)在引入非线性特性中的关键作用。通过具体实例演示了神经元从输入到输出的完整计算流程,帮助理解神经网络处理数据的基本原理。这些知识是理解深度学习模型运作机制的基础。
2025-10-16 20:06:11
950
原创 1.1 全连接神经网络整体结构
全连接神经网络由输入层、隐藏层和输出层三层核心结构组成,层间神经元完全连接。输入层接收原始数据(如图片像素),隐藏层进行特征提取,输出层给出预测结果(如分类概率)。其优势在于结构简单,适合处理低维数据,但面对高维数据时会出现参数爆炸问题,导致训练效率低且易过拟合。这种网络是理解更复杂神经网络的基础。
2025-10-16 19:58:43
722
原创 0.PyTorch 张量与模型构建
本文介绍了PyTorch深度学习框架的核心概念与基础操作。首先强调PyTorch并非深度学习前置课程,建议从自动微分开始学习核心概念。主要内容包括:1)PyTorch定义与特点,包括动态计算图、张量计算和自动微分;2)与TensorFlow的对比分析;3)张量的基本概念、创建方法和类型转换;4)张量与NumPy互转;5)标量提取;6)基本运算操作。文章通过表格形式清晰呈现了各种创建方法、运算方式和API对比,为初学者提供了系统的PyTorch入门指南。
2025-10-16 16:47:17
985
原创 Pytorch 框架与经典卷积神经网络笔记引导
本文介绍了PyTorch与卷积神经网络(CNN)的学习路径,推荐通过"基础概念→结构解析→代码实战"的体系化学习方式。课程包含三大部分:基础篇讲解全连接神经网络和PyTorch操作,CNN篇解析经典网络结构,实战篇完成图像分类等项目。学习前需掌握Python基础,安装PyTorch环境(CPU/GPU版本)。建议采用"预习-学习-复习"的迭代式学习方法,逐步构建深度学习知识框架。该教程适合具备Python基础、想系统学习PyTorch和CNN的初学者,通过118个视频
2025-10-16 10:18:21
603
原创 09.朴素贝叶斯
本文介绍了朴素贝叶斯算法的原理与应用。通过生活化的恋爱顾问案例,讲解了条件概率、联合概率和贝叶斯公式的核心概念,重点阐述了朴素贝叶斯"特征条件独立"的假设及其简化计算的优势。针对零概率问题,介绍了拉普拉斯平滑系数的解决方法。最后以商品评论情感分析为例,展示了朴素贝叶斯在文本分类中的实际应用流程,包括数据预处理、模型训练和评估等步骤。该算法简单高效,特别适合小规模多分类任务和文本分析场景。
2025-10-15 17:43:08
830
原创 08.集成算法
摘要: 本文系统介绍了集成学习算法,通过组合多个弱模型提升预测性能。重点解析了两种核心方法:Bagging(并行,如随机森林)通过有放回抽样和特征随机减少方差;Boosting(串行,如AdaBoost、GBDT、XGBoost)通过迭代修正残差降低偏差。文章对比了各代算法优劣,指出XGBoost因正则化和工程优化成为工业主流,并提供算法选型指南(小数据用随机森林,复杂任务用XGBoost)。最后以表格总结算法演进逻辑,强调理解"弱模型协同强于单一模型"的思想比调参更重要。(149字)
2025-10-15 11:56:16
1034
原创 07.决策树笔记
决策树是一种既能处理分类也能处理回归任务的树形模型,通过if-else式的规则判断实现预测。其核心在于选择最优特征划分数据,常用指标包括信息增益(ID3)、信息增益率(C4.5)和基尼指数(CART)。为避免过拟合,可采用预剪枝或后剪枝。代码实现上,分类任务使用DecisionTreeClassifier,回归任务用DecisionTreeRegressor,参数设置简单(如max_depth控制树深)。决策树优势在于可解释性强,但需注意特征选择和剪枝策略以平衡模型复杂度与泛化能力。
2025-10-15 11:32:15
794
原创 06.逻辑回归学习笔记
逻辑回归摘要(150字) 逻辑回归虽名含"回归",实为二分类模型,通过sigmoid函数将线性输出转为0-1概率。采用对数损失函数避免MSE的局部最优问题,用梯度下降优化参数。评估时需关注混淆矩阵及衍生指标:精确率(减少误判)、召回率(减少漏判),F1-score平衡二者,ROC-AUC衡量整体分辨力。实战中需处理类别特征(one-hot编码)、特征尺度(标准化)和过拟合(L1/L2正则化)。核心代码涉及LogisticRegression类及precision_score等评估函数,适
2025-10-15 08:58:27
762
原创 05.线性回归评估指标
本文系统介绍了线性回归模型评估的三种核心指标:平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。MAE计算简单、对异常值不敏感;MSE放大较大误差影响,适合作为优化目标;RMSE兼具量纲一致性和数学优势。文章通过对比表格清晰展示三者的特性差异,并针对不同场景给出使用建议。最后提供了Python实现代码,包括scikit-learn和手动计算两种方式,帮助读者全面掌握模型评估方法。实际应用中建议综合多个指标进行评估,以获得更可靠的模型性能判断。
2025-10-13 16:38:00
829
原创 04.梯度下降算法笔记
本文摘要介绍了Python中常用的梯度下降优化算法及其实现方式。主要内容包括: 机器学习库中的主要优化器类型: SGD(随机梯度下降) Adam(最流行的自适应学习率算法) RMSprop(适合非平稳目标) Adagrad(适合稀疏数据) Adadelta(Adagrad改进版) 优化器选择建议: 默认选择Adam/AdamW 追求最佳性能可用SGD+Momentum 稀疏数据推荐Adagrad/RMSProp 具体实现方法: 通过scikit-learn的SGDClassifier/SGDRegresso
2025-10-13 16:04:17
348
原创 03.线性回归笔记
摘要:本文介绍了线性回归的基本概念和应用场景,包括简单线性回归和多元线性回归。讲解了通过正规方程法和梯度下降算法求解回归问题,并详细说明了均方误差、平均绝对误差等损失函数的计算方法。文章还提供了Python实现代码,包括特征处理、模型训练和评估指标(MAE、MSE、RMSE)的计算。最后以波士顿房价预测为例,展示了完整的线性回归建模流程,从数据预处理到模型评估的全过程。
2025-10-13 15:03:30
555
原创 02.KNN算法笔记
本文系统介绍了KNN(K-近邻)算法的核心原理与应用。主要内容包括:算法思想(基于最近邻样本分类)、关键参数K值选择策略、四种距离度量方法(欧氏、曼哈顿、切比雪夫、闵可夫斯基)及特征预处理(归一化与标准化)。详细阐述了分类和回归问题的实现流程,并提供了sklearn的API使用示例。文章还介绍了超参数优化方法(交叉验证与网格搜索),并通过鸢尾花分类和手写数字识别两个实战案例进行演示。最后总结了KNN算法的优缺点、关键要点(K值选择、距离度量等)及典型应用场景。
2025-10-13 14:41:50
1034
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅