自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 深入探索embedding和Rerank

深入分析一下embedding和Rerank相关原理和技术细节

2025-12-04 16:24:01 1162

原创 Embedding与Rerank模型通俗易懂教学指南

简单易懂看明白什么是embedding模型和Rerank

2025-12-04 15:07:10 663

原创 LangChain到底是什么?

本文详细介绍了什么是LangChain、以及LangChain的各个组件

2025-12-01 23:09:20 1101

原创 漫谈提示词工程

提示词工程,扫盲文章,深么也不算深,浅么也不算浅,见仁见智吧各位~

2025-11-28 21:56:49 994

原创 大语言模型(LLM)架构核心解析(干货篇)

本文系统解析了大模型的核心架构与生态发展。

2025-11-27 22:40:35 1036

原创 传统KV缓存的局限性与现代解决方案及软硬件协同优化

KV cache的进化路程

2025-11-26 11:34:46 1015

原创 Transformer注意力机制演进笔记:从MHA到GQA

从MHA到GQA

2025-11-25 21:20:20 1426 1

原创 模型量化技术全解析:从理论到工程实践

模型量化,从概念到代码,全流程解析

2025-11-25 11:25:04 984

原创 大模型核心笔记

本文系统介绍了大语言模型(LLM)的核心概念与技术要点。首先明确LLM定义(超大规模参数模型)及四大特征:参数规模、数据需求、计算需求和泛化能力。从发展历程看,LLM经历了从统计模型到神经网络、预训练模型直至当前大规模生成式模型的演进。重点解析了LLM三大架构(Encoder/Decoder-Only及混合型)及其适用场景。在训练环节,详细说明了数据准备、预训练、微调的全流程及关键数据集。评估体系涵盖人工/自动方法及PPL、BLEU等核心指标。部署部分以VLLM为例,提供从环境配置到性能测试的完整指南。最后

2025-11-24 17:28:22 842

原创 2. 5分钟搞定RNN优化模型:LSTM与GRU

本文对比分析了RNN、LSTM和GRU三种序列模型。RNN存在长序列依赖问题,LSTM通过三个门控机制和细胞状态有效解决了这一问题,但计算复杂度高。GRU作为简化版LSTM,合并门控减少参数量,在保持性能的同时提高计算效率。

2025-11-04 16:29:08 855

原创 1.最简单的方式搞懂RNN是什么

用最简单的方式讲清楚什么叫RNN

2025-10-25 12:14:35 1241

原创 1.10 全连接神经网络的完整训练流程(第二章收尾)

本文介绍了深度学习模型的完整训练流程,以MNIST手写数字识别为例,使用Pytorch实现从数据准备到模型评估的全过程。主要内容包括:1)核心术语解释(Epoch、Batch Size、Iteration);2)数据加载与预处理;3)网络结构定义与初始化;4)训练循环的实现(前向传播、损失计算、反向传播、参数更新);5)测试集评估模型性能;6)模型保存方法。通过这个标准流程,读者可以掌握深度学习模型训练的基本框架,为后续学习更复杂模型打下基础。文中提供了可直接运行的代码示例,最终模型在MNIST测试集上能达

2025-10-19 16:59:31 426

原创 1.9 全连接神经网络的参数计算与初始化

本文介绍了全连接神经网络中的参数定义、计算方法及初始化策略。参数分为权重(w)和偏置(b)两类,其数量由相邻层神经元数量决定。计算示例显示,784-128-10结构的网络总参数达101258个。不当的初始化会导致梯度消失或爆炸,因此要保持数值稳定。文中推荐了三种初始化方法:Pytorch默认初始化(适合新手)、Kaiming初始化(专用于ReLU激活)和Xavier初始化(适用于Sigmoid/Tanh)。这些知识为后续学习前向传播奠定了基础。

2025-10-19 16:58:17 377

原创 1.一文读懂CNN(卷积神经网络)

文章介绍了CNN中所有的基础概念,以思维引导方式将知识点引出,方便小白阅读,复习时串联所有知识点...

2025-10-19 15:19:48 1552

原创 2.1 一文读懂正则化和指数加权平均

本文对比了L1/L2正则化和指数加权平均(EWMA)两大机器学习核心概念。采用案例+代码模式解释了什么是指数加权平均

2025-10-18 23:13:55 811

原创 1.8讲道理——什么是反向传播?

反向传播是神经网络中用于计算参数梯度、进而通过优化器更新参数的核心算法,核心逻辑是“从输出层到输入层,沿前向传播的反方向传递误差,并计算各层参数对损失的梯度”。

2025-10-18 20:40:12 1021

原创 1.6 反复咀嚼——梯度下降基础方法

梯度下降算法是机器学习的核心优化方法,通过迭代调整参数最小化损失函数。本文系统梳理了其基础形态:1)核心原理围绕"方向(梯度反方向)与步长(学习率)"展开;2)三类实现方法:BGD(全量计算精度高但效率低)、SGD(单样本计算效率高但震荡大)、Mini-batch(小批量计算兼顾效率与稳定性,成为深度学习标配);3)实战选择逻辑取决于数据规模与硬件条件。这些基础方法虽少直接用于开发,但为理解后续优化算法(如动量法、自适应学习率等)奠定必要理论基础。

2025-10-18 14:32:54 508

原创 1.7小白也看得懂——梯度下降优化方法演进与对比

本文系统梳理了梯度下降算法的优化演进路线,分为四个阶段:1)基础优化(SGD、牛顿法)解决计算可行性问题;2)动量优化(Momentum、Nesterov)提升收敛稳定性;3)自适应学习率(AdaGrad、RMSprop)实现参数个性化更新;4)融合优化(Adam)综合动量与自适应优势。文章强调优化算法始终围绕"加快收敛"和"稳定训练"两大核心目标展开,呈现从单一问题解决到多目标协同的演进逻辑,并推荐配套视频和开源项目辅助理解。全文150字,完整保留核心技术要点和演进

2025-10-18 12:11:18 1495

原创 1.5损失函数

损失函数是衡量神经网络预测误差的量化工具,用于指导模型参数调整。文章重点介绍了六种常用损失函数。详细说明了不同损失函数的适用场景、计算逻辑及PyTorch实现方法,并强调了使用时的注意事项(如输入格式、是否需要Softmax等)。

2025-10-17 11:59:55 1027

原创 1.4 全连接神经网络的前向传播

本文介绍了全连接神经网络中的前向传播过程,包括理论原理和Pytorch实现。前向传播是指输入数据通过网络各层逐步计算输出结果的过程,主要包含加权求和和激活函数两个计算步骤。文章以手写数字识别网络为例,详细拆解了从输入层到隐藏层再到输出层的计算流程。在Pytorch实现部分,提供了完整的网络类定义代码,包括层结构搭建和前向传播方法实现,并强调了关键注意事项。最后指出前向传播的核心作用是为训练提供预测结果和损失值,以及在实际预测中的快速应用价值。

2025-10-17 08:54:54 986

原创 1.3 非线性激活函数

文章摘要: 非线性激活函数是神经网络突破线性模型限制的关键,其核心作用包括:1)使多层网络能表达复杂非线性函数;2)增强模型对非线性数据的拟合能力;3)支持梯度下降优化。ReLU因其计算高效、缓解梯度消失成为CNN首选,Sigmoid/Tanh则适用于特定场景。PyTorch实战中,激活函数需紧跟线性层(如卷积层),形成“线性变换→非线性激活”的基本单元。改进型激活函数(如Leaky ReLU)可解决ReLU的神经元死亡问题。合理选择激活函数是提升模型性能的重要前提。

2025-10-16 20:41:15 949 1

原创 1.2 全连接神经网络的单元结构

本文介绍了神经网络神经元的核心结构和计算过程。神经元由输入、权重、偏置、加权求和、激活函数和输出五部分组成,每个输入对应一个可学习的权重参数。文章详细解释了加权求和公式z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b的计算过程,并强调了激活函数(如ReLU和Sigmoid)在引入非线性特性中的关键作用。通过具体实例演示了神经元从输入到输出的完整计算流程,帮助理解神经网络处理数据的基本原理。这些知识是理解深度学习模型运作机制的基础。

2025-10-16 20:06:11 950

原创 1.1 全连接神经网络整体结构

全连接神经网络由输入层、隐藏层和输出层三层核心结构组成,层间神经元完全连接。输入层接收原始数据(如图片像素),隐藏层进行特征提取,输出层给出预测结果(如分类概率)。其优势在于结构简单,适合处理低维数据,但面对高维数据时会出现参数爆炸问题,导致训练效率低且易过拟合。这种网络是理解更复杂神经网络的基础。

2025-10-16 19:58:43 722

原创 0.PyTorch 张量与模型构建

本文介绍了PyTorch深度学习框架的核心概念与基础操作。首先强调PyTorch并非深度学习前置课程,建议从自动微分开始学习核心概念。主要内容包括:1)PyTorch定义与特点,包括动态计算图、张量计算和自动微分;2)与TensorFlow的对比分析;3)张量的基本概念、创建方法和类型转换;4)张量与NumPy互转;5)标量提取;6)基本运算操作。文章通过表格形式清晰呈现了各种创建方法、运算方式和API对比,为初学者提供了系统的PyTorch入门指南。

2025-10-16 16:47:17 985

原创 Pytorch 框架与经典卷积神经网络笔记引导

本文介绍了PyTorch与卷积神经网络(CNN)的学习路径,推荐通过"基础概念→结构解析→代码实战"的体系化学习方式。课程包含三大部分:基础篇讲解全连接神经网络和PyTorch操作,CNN篇解析经典网络结构,实战篇完成图像分类等项目。学习前需掌握Python基础,安装PyTorch环境(CPU/GPU版本)。建议采用"预习-学习-复习"的迭代式学习方法,逐步构建深度学习知识框架。该教程适合具备Python基础、想系统学习PyTorch和CNN的初学者,通过118个视频

2025-10-16 10:18:21 603

原创 09.朴素贝叶斯

本文介绍了朴素贝叶斯算法的原理与应用。通过生活化的恋爱顾问案例,讲解了条件概率、联合概率和贝叶斯公式的核心概念,重点阐述了朴素贝叶斯"特征条件独立"的假设及其简化计算的优势。针对零概率问题,介绍了拉普拉斯平滑系数的解决方法。最后以商品评论情感分析为例,展示了朴素贝叶斯在文本分类中的实际应用流程,包括数据预处理、模型训练和评估等步骤。该算法简单高效,特别适合小规模多分类任务和文本分析场景。

2025-10-15 17:43:08 830

原创 08.集成算法

摘要: 本文系统介绍了集成学习算法,通过组合多个弱模型提升预测性能。重点解析了两种核心方法:Bagging(并行,如随机森林)通过有放回抽样和特征随机减少方差;Boosting(串行,如AdaBoost、GBDT、XGBoost)通过迭代修正残差降低偏差。文章对比了各代算法优劣,指出XGBoost因正则化和工程优化成为工业主流,并提供算法选型指南(小数据用随机森林,复杂任务用XGBoost)。最后以表格总结算法演进逻辑,强调理解"弱模型协同强于单一模型"的思想比调参更重要。(149字)

2025-10-15 11:56:16 1034

原创 07.决策树笔记

决策树是一种既能处理分类也能处理回归任务的树形模型,通过if-else式的规则判断实现预测。其核心在于选择最优特征划分数据,常用指标包括信息增益(ID3)、信息增益率(C4.5)和基尼指数(CART)。为避免过拟合,可采用预剪枝或后剪枝。代码实现上,分类任务使用DecisionTreeClassifier,回归任务用DecisionTreeRegressor,参数设置简单(如max_depth控制树深)。决策树优势在于可解释性强,但需注意特征选择和剪枝策略以平衡模型复杂度与泛化能力。

2025-10-15 11:32:15 794

原创 06.逻辑回归学习笔记

逻辑回归摘要(150字) 逻辑回归虽名含"回归",实为二分类模型,通过sigmoid函数将线性输出转为0-1概率。采用对数损失函数避免MSE的局部最优问题,用梯度下降优化参数。评估时需关注混淆矩阵及衍生指标:精确率(减少误判)、召回率(减少漏判),F1-score平衡二者,ROC-AUC衡量整体分辨力。实战中需处理类别特征(one-hot编码)、特征尺度(标准化)和过拟合(L1/L2正则化)。核心代码涉及LogisticRegression类及precision_score等评估函数,适

2025-10-15 08:58:27 762

原创 05.线性回归评估指标

本文系统介绍了线性回归模型评估的三种核心指标:平均绝对误差(MAE)、均方误差(MSE)和均方根误差(RMSE)。MAE计算简单、对异常值不敏感;MSE放大较大误差影响,适合作为优化目标;RMSE兼具量纲一致性和数学优势。文章通过对比表格清晰展示三者的特性差异,并针对不同场景给出使用建议。最后提供了Python实现代码,包括scikit-learn和手动计算两种方式,帮助读者全面掌握模型评估方法。实际应用中建议综合多个指标进行评估,以获得更可靠的模型性能判断。

2025-10-13 16:38:00 829

原创 04.梯度下降算法笔记

本文摘要介绍了Python中常用的梯度下降优化算法及其实现方式。主要内容包括: 机器学习库中的主要优化器类型: SGD(随机梯度下降) Adam(最流行的自适应学习率算法) RMSprop(适合非平稳目标) Adagrad(适合稀疏数据) Adadelta(Adagrad改进版) 优化器选择建议: 默认选择Adam/AdamW 追求最佳性能可用SGD+Momentum 稀疏数据推荐Adagrad/RMSProp 具体实现方法: 通过scikit-learn的SGDClassifier/SGDRegresso

2025-10-13 16:04:17 348

原创 03.线性回归笔记

摘要:本文介绍了线性回归的基本概念和应用场景,包括简单线性回归和多元线性回归。讲解了通过正规方程法和梯度下降算法求解回归问题,并详细说明了均方误差、平均绝对误差等损失函数的计算方法。文章还提供了Python实现代码,包括特征处理、模型训练和评估指标(MAE、MSE、RMSE)的计算。最后以波士顿房价预测为例,展示了完整的线性回归建模流程,从数据预处理到模型评估的全过程。

2025-10-13 15:03:30 555

原创 02.KNN算法笔记

本文系统介绍了KNN(K-近邻)算法的核心原理与应用。主要内容包括:算法思想(基于最近邻样本分类)、关键参数K值选择策略、四种距离度量方法(欧氏、曼哈顿、切比雪夫、闵可夫斯基)及特征预处理(归一化与标准化)。详细阐述了分类和回归问题的实现流程,并提供了sklearn的API使用示例。文章还介绍了超参数优化方法(交叉验证与网格搜索),并通过鸢尾花分类和手写数字识别两个实战案例进行演示。最后总结了KNN算法的优缺点、关键要点(K值选择、距离度量等)及典型应用场景。

2025-10-13 14:41:50 1034

原创 01.机器学习概述与KNN算法(分类+回归)

文章简单介绍了一下机器学习和KNN,面向的是有基础的同学,当作复习资料来处理也欧克。

2025-10-13 12:05:07 368 1

机器学习概述与KNN算法(分类+回归)

从这篇文章开始学习机器学习,针对的是有基础的同学,Python、数据分析等等,也可以做为复习笔记来看。

2025-10-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除