- 博客(127)
- 收藏
- 关注
原创 从各个角度讲透一个强大的算法模型,Transformer !!
摘要:本文深入解析Transformer模型的核心原理与优势。Transformer通过自注意力机制突破传统RNN/LSTM的序列处理局限,实现全局并行信息检索。其核心架构包含编码器-解码器结构、位置编码、多头注意力等模块,具有效率高、建模能力强、适用性广等特点。文章通过时间序列预测任务进行实战演示,详细讲解模型各组件实现细节,包括注意力机制、残差连接、层归一化等关键技术,并提供了完整的训练流程和可视化分析方法。最后总结了Transformer的核心优势在于其全局注意力机制和多头多视角的并行学习能力。
2025-12-25 22:48:34
403
原创 通透!十大支持向量机最强总结!!
本文全面总结了支持向量机(SVM)及其多种变体的核心原理和应用场景。从基础的线性SVM到非线性SVM,再到多类别分类、软间隔、核函数、径向基函数、多核、自适应、稀疏和增量式SVM等变体,详细介绍了每种算法的数学原理、优化目标和适用条件。特别强调了核函数技术在处理非线性问题中的关键作用,以及正则化参数对模型性能的影响。文章还提供了Python代码示例,展示了如何实现这些算法并进行可视化分析。这些SVM变体通过不同方式扩展了基础算法的能力,使其能够适应各种复杂的数据分布和实际应用需求。
2025-12-25 18:49:51
449
原创 必用 !绝美三维散点图 !!
本文介绍了5种三维散点图可视化方法,适用于科研论文和数据分析。包括:1)Matplotlib彩色连续映射+拟合平面;2)分类颜色+多投影视图;3)Plotly交互式可视化;4)PyVista/Mayavi高质量光照渲染;5)密度等值面+点云组合。文章详细说明了每种方法的代码实现、参数调整和导出技巧,如DPI设置、色彩选择和多面板布局等,帮助读者根据具体需求选择合适的三维可视化方案。所有示例均基于统一的数据生成函数,保证结果可复现。
2025-12-20 19:44:52
794
原创 从理论到代码:随机森林 + GBDT+LightGBM 融合建模解决回归问题
本文探讨了融合随机森林(RF)、梯度提升决策树(GBDT)和LightGBM三种树模型来提升房屋租金预测效果的方法。通过分析各模型的特性:RF抗噪声但拟合能力保守,GBDT捕捉非线性关系但易过拟合,LightGBM高效但对参数敏感。提出了三种融合策略:简单加权平均、堆叠集成(Stacking)和混合集成(Blending),其中Stacking通过元学习器自动优化组合方式表现最佳。实验采用合成租金数据,包含面积、楼层、装修等特征,结果显示融合模型在RMSE、MAE等指标上优于单一模型。
2025-12-20 16:32:52
912
原创 实战指南|随机森林 + XGBoost+LightGBM 融合模型,搞定时间序列预测难题
本文介绍了一种融合XGBoost、随机森林和LightGBM的树模型集成方法,用于电商用户购买行为预测。通过分析用户画像、行为和交易数据,构建了包含10000个用户的模拟数据集。采用5折交叉验证训练三个基模型,并生成OOF预测以避免信息泄露。使用PyTorch实现多层感知机(MLP)作为元学习器,通过带权BCEWithLogitsLoss处理样本不平衡问题。该方法结合了各模型的优势:随机森林的稳健性、XGBoost的强拟合能力和LightGBM的高效性,最终通过非线性融合提升预测精度。
2025-12-19 19:25:10
1078
原创 ARIMA-LSTM-Prophet 融合模型在股票预测中的应用
本文提出了一种融合ARIMA、LSTM和Prophet模型的股票价格预测方法。三种模型优势互补:ARIMA擅长线性趋势,LSTM捕捉非线性模式,Prophet处理周期性特征。通过严格的时间序列划分(训练集70%、验证集15%、测试集15%)和多步递推预测避免数据泄露。在验证集上优化模型融合权重,测试集评估显示融合模型(RMSE=1.23,MAE=0.98,MAPE=0.83%)优于单一模型。可视化分析验证了融合方法的稳健性,权重分配反映了各模型在不同市场环境下的优势。该方法通过集成学习提升了预测的泛化能力
2025-12-19 13:49:48
644
原创 一文搞定XGBoost模型!!
XGBoost是一种基于梯度提升树的强大分类算法,通过集成多棵弱决策树实现高精度预测。其核心在于串行迭代训练,每棵树专门修正前一轮的高误差样本,并引入二阶泰勒展开优化和正则化防止过拟合。算法通过计算梯度确定误差优先级,利用分裂增益选择最优特征划分,最终加权组合所有树的预测结果。在二分类任务中,XGBoost先将输出转换为对数几率,再通过Sigmoid函数得到概率。实际应用中,XGBoost擅长处理结构化数据,可通过Python实现完整流程,包括数据可视化、模型训练和评估,其特征重要性分析还能辅助特征筛选。
2025-12-17 22:24:58
987
原创 随机森林 VS GBDT,完全性能评估比较 !!
本文对比分析了随机森林(RF)和梯度提升决策树(GBDT)两种树集成模型的原理与性能特点。RF采用并行多树投票机制,通过Bootstrap采样和特征随机性降低方差,适合追求稳健性的场景;GBDT采用串行多树纠错机制,通过拟合负梯度逐步修正偏差,适合追求高精度的任务。实验部分使用PyTorch实现了简化版的CART回归树,并基于此构建了RF和GBDT模型,通过可视化分析展示了两种模型在预测热图、特征重要性、学习曲线和残差分布等方面的差异。结果表明,RF预测更平滑稳定,GBDT拟合更精准但易过拟合。
2025-12-17 15:46:33
647
原创 融合Transformer与AutoEncoder的时间序列降维
本文提出了一种结合Transformer和AutoEncoder的时间序列降维方法。通过Transformer的自注意力机制捕捉时间序列中的长期依赖关系,再使用AutoEncoder将高维时间序列压缩为低维向量。实验采用三阶段合成数据验证,结果显示该方法能有效区分不同时间状态,重构误差较小。与PCA等线性方法相比,该非线性方法更适合处理复杂时间模式。文章详细介绍了模型架构、训练过程和可视化分析,可为读者们在时间序列的降维上提供了新思路。
2025-12-15 20:36:52
872
原创 一文总结及其机器学习十大距离公式!!
本文系统介绍了机器学习中常用的十大距离度量方法,将其分为四大类:1. 基于向量的距离(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离)2. 角度与方向相关(余弦距离)3. 概率分布相关(KL散度、JS散度、Wasserstein距离)4. 集合与离散数据(汉明距离、Jaccard距离)每种距离都配有数学定义、适用场景、Python实现和可视化示例,展示了它们在特征相似性计算、分类聚类、推荐系统等任务中的应用特点。文章特别强调了不同距离度量的几何意义和计算特性,帮助读者理解如何根据具体问题选择合适的距离度
2025-12-15 16:45:12
1512
原创 CNN+BiLSTM !!最强序列建模组合!!!
CNN+BiLSTM组合模型在处理时序数据时展现出独特优势。该模型通过一维卷积提取局部特征,结合双向LSTM捕捉长程依赖,有效解决了序列建模中局部模式识别与全局关联分析的双重需求。实验结果表明,该组合在文本分类、生理信号分析等任务中性能优异,测试准确率达较高水平。可视化分析显示模型能学习到良好的特征表示空间,各类别区分明显。优化方向包括引入注意力机制、改进卷积结构等。该方案特别适用于中等长度、兼具局部特征和长程关联的序列任务。
2025-12-08 16:02:17
1345
原创 万字干货!如何利用pytorch搭建一个完整的深度学习项目?
本文为PyTorch深度学习初学者提供完整项目构建指南,包括6个核心模块:1. 数据集加载(Dataset/DataLoader)2. 数据预处理(transforms/Normalization)3. 模型构造(Module类继承)4. 模型训练(损失计算/反向传播)5. 模型保存与加载(.pt/.pth文件)6. 模型测试。重点讲解如何自定义数据集类、实现数据归一化、构建含参/不含参网络层,并提供了完整的训练测试代码模板。文章采用面包制作类比解释数据处理流程,适合Python基础薄弱但想快速入门。
2025-09-05 15:37:13
1011
原创 一文详解深度学习中神经网络的各层结构与功能!
本文介绍了深度学习中卷积神经网络的核心组件及其工作原理:1)卷积层通过局部连接和权重共享提取特征,采用不同卷积核可进行高通/低通滤波;2)池化层(最大/平均)实现特征降维和不变性;3)批归一化层解决梯度问题;4)激活函数(Sigmoid/Tanh/ReLU)引入非线性;5)全连接层将特征映射到分类空间。文章详细阐述了各层的数学原理、参数计算和应用场景,帮助理解CNN从特征提取到分类的完整流程。
2025-09-05 14:50:34
1462
1
原创 Llama v3 中的低秩自适应 (LoRA)
本文介绍了如何在消费级硬件上微调大语言模型(LLM)的实用方案。作者详细讲解了如何利用LoRA(低秩自适应)技术在RTX 4090笔记本上微调80亿参数的Llama 3模型,包括环境搭建、数据预处理、训练参数设置等关键步骤。文章特别区分了训练和推理的区别,指出LoRA技术通过仅训练参数映射关系而非全量参数,能大幅降低计算需求。实验部分展示了从模型加载、数据集创建到训练循环和模型保存的完整流程,并提供了调试技巧。最后通过推理测试验证了模型成功学习到自定义知识,同时解释了tokenization的工作原理。
2025-09-03 23:21:27
1491
1
原创 使用 Terraform、AWS 和 Python 构建无服务器实时数据管道
本文介绍了使用AWS无服务器服务构建实时数据管道的实践方案。通过整合S3、DynamoDB、Glue、DataBrew和Athena等服务,并使用Terraform进行基础设施即代码部署,构建了一个完整的实时数据处理流程。管道实现了从数据采集、去重清洗到查询分析的全流程自动化,特别是利用DynamoDB流触发Lambda函数实现实时数据处理。项目验证了通过删除重复email字段清洗数据的有效性,展现了AWS无服务器数据服务的强大功能与Terraform在云基础设施管理中的优势,为数据工程实践提供了价值
2025-09-03 22:58:08
1033
原创 突破超强回归模型,高斯过程回归!
本文以冰淇淋销量预测为例,通俗易懂地讲解了高斯过程回归(GPR)的核心原理。GPR不同于传统回归方法,它通过"先验-后验-预测"的贝叶斯框架,不仅能给出预测值,还能量化预测的不确定性。文章详细拆解了GPR的三个关键步骤:先验阶段用高斯过程定义函数可能形状;训练阶段用数据修正先验得到后验分布;预测阶段输出预测均值及置信区间。特别强调了核函数选择和不确定性度量的重要性,通过温度-销量预测的实例,展示了GPR在数据附近预测准确、远离数据时给出警告的智能特性,体现了其在实际应用中的优势。
2025-09-01 21:33:05
883
原创 一文通透!为什么 DBSCAN 能检测任意形状的簇 ?
DBSCAN算法能够检测任意形状的簇,主要基于其独特的密度聚类原理。与传统K-Means等基于中心距离的算法不同,DBSCAN通过定义ε-邻域和核心点来构建局部密度关系,利用密度可达和密度相连的概念将满足密度条件的点连接成簇。这种机制不依赖预设的簇形状或数量,只要数据点的局部密度能够形成连通路径,无论是环形、月牙形还是多分支结构,都能被完整识别为一个簇。实验显示,在相同月牙形数据集上,K-Means会产生直线分割而DBSCAN能准确识别原始形状。该算法的核心优势在于用密度连通性替代中心距离。
2025-09-01 20:49:03
1203
原创 数据标准化与归一化的区别与应用场景
数据标准化(Z-score 标准化)通过线性变换使数据均值为 0、标准差 1,保留原始分布形态,适用于依赖距离度量(如 KNN、SVM)或有异常值的数据。数据归一化(Min-Max 缩放)将数据压缩到固定区间(如 [0,1]),保持相对比例,适合神经网络和数值范围敏感的算法。主要区别在于标准化基于均值和标准差,归一化基于极值。标准化对异常值更稳健,而归一化保留物理意义。选择时需结合算法特性:标准化适合回归、PCA 等模型,归一化更适合神经网络和图像处理。
2025-08-09 22:55:21
966
原创 最强总结!十大非参数统计方法 (下)
本文介绍了5种机器学习核心算法原理与应用:1.支持向量机(SVM):基于最大间隔原则,通过核函数处理非线性数据,适用于高维分类/回归任务;2.最近邻图(NNG):构建数据相似性图结构,用于无监督学习中的聚类和降维;3.核主成分分析(KPCA):非线性PCA扩展,通过核技巧实现高维特征提取;4.自适应平滑法:动态调整局部平滑参数,适用于非均匀数据去噪;5.分位数回归:估计条件分位数而非均值,能分析变量在不同分布区间的异质性影响。这些方法各具特色,适用于不同数据特征的分析需求。
2025-08-09 20:49:10
859
原创 最强总结!十大非参数统计方法 (上)
非参数统计方法摘要 非参数统计方法不依赖数据分布假设,适用于未知分布、非正态数据或存在异常值的情况。本文介绍了K-近邻、核密度估计、非参数回归、决策树和随机森林等核心方法。K-近邻通过邻近样本投票预测,核密度估计用叠加核函数估计概率密度,非参数回归可拟合任意形状关系。决策树模拟人类决策过程,而随机森林通过多树集成提高准确性。这些方法灵活性高,能捕捉复杂模式,但计算成本较高。案例展示了各方法在分类、回归和特征分析中的应用,包括鸢尾花分类、数据密度估计和乳腺癌特征重要性分析。非参数方法在数据驱动的应用中日益重要
2025-08-08 23:24:50
1206
原创 从学讲透一个强大算法模型,LightGBM !!
本文详细介绍了LightGBM的原理、优化技术和应用案例。LightGBM是一种高效的梯度提升决策树框架,具有速度快、内存占用低、准确度高等特点。其核心原理包括加法模型、梯度下降和叶子节点优化,通过Leaf-wise生长策略、直方图优化、GOSS采样和EFB特征捆绑四大关键技术实现性能提升。文章以UCI Adult数据集为例,演示了从数据预处理、EDA分析到模型训练、评估和超参数调优的全流程。实验结果显示,优化后的模型在测试集上准确率达到0.87,AUC为0.92,并通过特征重要性分析识别出关键预测变量。
2025-08-08 22:46:11
2579
原创 什么是键值缓存?让 LLM 闪电般快速
KV缓存是大语言模型(LLMs)实现高效推理的关键技术。在自回归生成过程中,KV缓存通过存储历史token的键(K)和值(V)矩阵,避免了注意力机制中的重复计算,将时间复杂度从O(n²)优化到接近O(n),显著提升长文本生成效率。其核心原理是"计算新token+复用历史缓存",在保证输出一致性的同时大幅减少计算量。虽然会带来内存消耗增加的问题,但可通过滑动窗口、量化等技术进行优化。KV缓存已成为支撑聊天机器人、代码补全等实时交互应用的核心技术,是LLMs推理过程中不可或缺的。
2025-08-07 23:23:06
1023
原创 vLLM:彻底改变大型语言模型推理延迟和吞吐量
vLLM是一个突破性的开源库,专门用于优化大型语言模型(LLM)的推理和服务效率。它通过两项核心技术——分页注意力机制和连续批处理,解决了传统LLM部署中的关键瓶颈问题。分页注意力机制借鉴操作系统内存管理思想,将KV缓存划分为固定大小的块,显著减少90%的内存浪费;连续批处理则实现动态请求调度,最大化GPU利用率,使吞吐量提升高达24倍。该工具还提供OpenAI兼容API、广泛模型支持、多GPU部署等丰富功能,成为生产环境中部署LLM的理想选择,特别适合高吞吐量
2025-08-07 22:38:08
1468
原创 模型蒸馏(Distillation):原理、算法、应用
知识蒸馏是一种将复杂大模型(教师模型)的知识迁移到轻量小模型(学生模型)的技术,旨在解决大模型在边缘设备部署时面临的计算资源限制问题。该方法通过提取教师模型中的响应、特征和关系知识,采用离线、在线或自蒸馏等训练方案,结合对抗学习、多教师等算法,实现模型压缩而不显著损失性能。知识蒸馏已成功应用于图像识别、自然语言处理(如DistilBERT)和语音识别(如Amazon Alexa)等领域,显著提升了模型在资源受限设备上的部署效率。这一技术为深度学习模型的实际应用提供了高效解决方案。
2025-08-04 23:01:21
1925
原创 构建属于自己的第一个 MCP 服务器:初学者教程
MCP服务器作为AI与外部世界的桥梁,解决了大模型无法获取实时数据的问题。本文详细介绍了如何用TypeScript构建一个天气MCP服务器,包括项目初始化、工具定义、API集成等步骤。通过Open-Meteo API获取实时天气数据,并实现与VSCode和GitHub Copilot的集成,使AI能够回答实时天气查询。该方案不仅适用于天气查询,还可扩展至其他实时数据领域,为AI应用提供了更强大的功能支持。
2025-08-04 16:20:34
1122
原创 如何最简单、通俗地理解线性回归算法? 线性回归模型在非线性数据上拟合效果不佳,如何在保持模型简单性的同时改进拟合能力?
线性回归是统计学和机器学习领域的基础算法,通过构建变量间的线性关系模型实现预测分析。其核心是最小二乘法估计参数,并依赖误差项的正态性、同方差性等统计假设。模型评估采用决定系数、均方误差等指标,同时需警惕多重共线性和异常值问题。实际应用中包含数据清洗、特征工程、正则化处理等关键步骤。线性回归在统计推断与机器学习预测中均具重要价值,是理解复杂模型的基础,其偏差-方差权衡原理对构建稳健预测模型具有指导意义。
2025-08-01 21:37:07
694
原创 anaconda、conda、pip、pytorch、torch、tensorflow到底是什么?它们之间有何联系与区别?
本文系统梳理了科学计算和机器学习领域的关键工具链,重点分析了软件包管理器(conda与pip)、集成环境(Anaconda)及深度学习框架(PyTorch/TensorFlow)的技术特性与应用场景。文章指出conda在跨语言依赖管理和环境隔离方面的优势,对比pip的轻量级特点;解析Anaconda作为一站式科学计算平台的生态价值;深入比较PyTorch动态图与TensorFlow静态图的设计哲学及适用场景。通过阐述工具间的协同使用方法,为不同应用需求下的技术选型提供了实践指导.
2025-08-01 13:34:50
1070
原创 一文讲透一个强大算法模型-多项式回归 !!
多项式回归是一种非线性拟合方法,通过多项式函数描述变量间的非线性关系。本文以一个房价预测案例展开,对比了不同阶数多项式对非线性数据的拟合效果。核心步骤包括:1)确定多项式阶数;2)构造设计矩阵;3)最小二乘法求解参数;4)模型评估。结果表明,适当阶数的多项式能有效捕捉非线性趋势,但高阶易导致过拟合。通过交叉验证选择最佳阶数,并引入L1/L2正则化优化模型。该方法在数据呈现非线性特征时比线性回归更具优势,能实现更准确的预测建模。
2025-07-05 16:06:20
1147
原创 讲透一个强大算法模型,贝叶斯回归 !!
贝叶斯回归是一种基于贝叶斯思想的回归分析方法,它将模型参数视为随机变量而非固定值。与传统回归提供确定参数不同,贝叶斯回归输出参数的概率分布,既能估计变量间关系,又能量化预测的不确定性。其核心流程包括:设定参数的先验分布,通过观测数据计算似然函数,再结合两者得到后验分布。预测时综合考虑参数不确定性和观测噪声,给出预测值的概率分布。该方法特别适用于数据量小、噪声大的场景,可通过sklearn的BayesianRidge实现,并支持超参数自动优化。贝叶斯回归的优势在于提供预测置信区间,帮助评估模型可靠性。
2025-07-05 14:58:21
1347
原创 超全总结!Pythorch 构建Attention-lstm时序模型 !!
本文介绍了使用PyTorch构建Attention-LSTM时序模型的实践案例。文章首先阐述了LSTM网络的原理,包括输入门、遗忘门、输出门等核心机制,并讲解了Attention机制如何帮助模型聚焦关键信息。作者提供了完整的PyTorch实现代码,通过正弦波数据集进行时序预测,包含数据准备、模型构建、训练过程及结果可视化。实验结果显示,模型损失值虽然趋于收敛,但预测结果未能有效捕捉数据周期性特征。文章最后分析了可能的原因并建议优化方向,包括调整模型复杂度、超参数等,为读者提供了时序建模的实用参考。
2025-06-27 14:04:38
961
原创 FastAPI框架的10个重要知识点总结
1. 数据验证采用Pydantic实现自动化类型转换和复杂校验,支持嵌套模型和自定义验证器;2. 文档系统自动生成交互式API文档(Swagger/ReDoc);3. 依赖注入机制简化共享逻辑复用;4. 异步支持提升并发性能;5. 完善的中间件、异常处理和认证授权体系。该框架通过Starlette底层优化和Uvicorn部署支持,展现出媲美Go/Node.js的高性能特性,成为现代Python Web开发的优选方案。
2025-06-21 21:49:01
646
原创 时间序列预测、分类 | 图神经网络开源代码分享(上)
本文系统梳理了图神经网络(GNN)在时间序列预测、分类等任务中的最新研究进展。GNN通过构建节点和边的关系网络,能够有效捕捉时间序列中复杂的时空依赖关系:在多变量序列中建模变量间的相互影响,在时间维度上分析动态演化规律。文章从三个维度详细介绍了现有方法:1)空间依赖建模(谱GNN、空间GNN及混合方法);2)时间依赖建模(循环模型、卷积模型、注意力机制等);3)预测架构融合(离散与连续模型)。同时提供了多个典型模型的论文链接和开源代码资源。
2025-06-21 14:53:54
955
原创 如何使用 neptune.ai 优化模型训练期间的 GPU 使用率
GPU性能优化是深度学习训练的关键环节。GPU利用率、内存占用和功耗是评估性能的核心指标。通过混合精度训练、批次大小调整和数据流水线优化可以显著提升GPU效能。研究显示,不同深度学习框架的GPU利用率存在明显差异。使用Neptune等工具监控资源使用情况能够有效识别瓶颈,Brainly案例证明优化数据预处理流程可将GPU利用率从25%提升至更高水平。建议开发者关注内存使用、采用混合精度、分析CPU/GPU负载平衡,并系统评估各优化措施的实际效果。
2025-06-20 19:13:00
895
原创 Hugging Face 预训练模型:找到最适合你任务的模型
介绍了 Hugging Face 预训练模型在解决机器学习问题时的优势,其 2017 年上线后推出的 Transformers 库及 NLP 资源让高质量 NLP 模型更易使用。它专注于 NLP 任务,模型能理解语义和语境。博客还介绍了模型选择前要明确用例,可通过其平台筛选模型,以及设置环境的方法,还列举了支持的基本 NLP 任务,阐述了 Transformer 架构和 Hugging Face 的应用,最后以创建英德翻译器为例展示了模型使用、微调及评估过程。
2025-06-20 16:14:42
1361
原创 隐语杯--医疗大模型隐私微调竞赛全攻略:思路、代码与案例解析
本次医疗大模型隐私微调竞赛聚焦医疗AI领域的核心矛盾——模型精度与数据隐私的平衡。竞赛提供4万条医疗对话训练数据及两种验证集,要求参赛者在微调过程中兼顾下游任务精度和隐私保护。通过LoRA等高效微调方法减少计算资源消耗,结合数据匿名化、差分隐私和对抗训练等技术防止模型记忆敏感信息。示例代码展示了从数据处理到模型训练的全流程实现,包括隐私保护评估机制。参考案例(如约翰霍普金斯大学的差分隐私应用)验证了技术可行性。解决方案需在医疗语义理解、隐私风险量化等方面持续优化,推动医疗AI在隐私合规前提下落地应用。
2025-06-19 14:31:43
908
1
原创 注意力机制、自注意力机制、多头注意力机制、通道注意力机制、空间注意力机制超详细讲解
本文系统梳理了注意力机制在深度学习中的演进与应用。从2017年Transformer的突破性成果切入,详细解析了自注意力机制的计算流程及其在自然语言处理中的优势;继而阐述了多头注意力通过并行视角增强特征捕获能力的原理。在计算机视觉领域,重点剖析了通道注意力(SENet、ECA)和空间注意力(CBAM、STN)的技术特点,展示了如何通过权重分配聚焦关键信息。文章还对比了不同注意力机制的适用场景,如通道注意力筛选语义特征,空间注意力定位关键区域。
2025-06-18 21:55:27
2228
原创 一文搞清楚如何使用 LoRA 微调(LLM)
LoRA(低秩自适应)是一种高效的大型语言模型微调技术,通过仅调整少量关键参数而非全模型实现任务适配。本文演示了使用LoRA微调Gemma-2-9b-it模型生成名言标签的完整流程:1) 安装PEFT等库并加载8位量化模型;2) 冻结模型参数并注入LoRA适配器;3) 配置低秩矩阵参数(r=16)和注意力目标层;4) 预处理数据集并启动高效训练;5) 测试推理效果并分享轻量适配器。实验表明,LoRA只需训练原模型0.1%的参数即可获得优秀性能,大幅降低了计算资源需求。该方法通用性强,适用于各类大语言模型
2025-06-18 15:28:01
1238
原创 讲透 RNN 到 Transformer !!!
本文探讨了深度学习在序列数据处理中的演进历程,从RNN到Transformer的技术突破。RNN通过循环连接解决了序列时序依赖问题,但存在顺序处理效率低、长距离依赖难以捕捉等局限。Attention机制的引入打破了RNN的局限性,实现了全局信息交互。Transformer在此基础上完全摒弃循环结构,通过自注意力机制实现了并行计算和高效的长序列处理,其核心创新包括多头注意力、位置编码等模块。文章通过一个两位数加法任务案例,对比展示了RNN和Transformer的具体实现差异,突出了Transformer在结
2025-06-17 18:49:42
1024
原创 Pandas中merge、concat、join 区别 !!
详细解释了Pandas提供了三种数据合并方法:merge基于键连接数据(类似SQL JOIN),concat沿轴堆叠对象(无视连接键),join基于索引或列合并。merge最灵活但性能较差,concat适用于相同结构数据的高效堆叠,join擅长索引对齐的快速合并。实际应用中应根据数据结构、连接需求和性能考虑选择合适方法:复杂键连接用merge,简单堆叠用concat,索引对齐用join。优化技巧包括设置索引、过滤数据、一次合并等,合并时可通过suffixes处理重复列名。掌握三者差异可提升数据处理效率。
2025-06-17 16:11:31
1473
原创 PDF转Markdown基准测试
本文对比评测了5种PDF转Markdown工具的性能表现。测试采用结构化基准文件,重点评估格式保留、语义转换质量及处理效率。结果显示:PyMuPDF4LLM速度最快但表格处理不佳;ChatGPT-4o转换质量最佳但响应较慢;marker表格解析精准但依赖GPU加速;Docling表现不稳定;MarkItDown仅输出纯文本。实验证明,PDF的非结构化特性导致传统提取方法存在格式丢失问题,而Markdown的结构化优势能显著提升LLM处理效果,在RAG系统中使检索准确率提升27%,人工校对效率提高40%。
2025-06-14 21:59:02
1222
1
【0 基础也能懂!】系列超市小票 + 奶茶订单:自创5 个生活场景数据集(含脏数据)
2025-03-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅