- 博客(217)
- 收藏
- 关注
原创 【大模型进阶】视频课程2 LORA微调原理深度解析+LLaMA Factory实操指南:小白也能玩转大模型定制
链接:1.大模型lora微调的原理链接:2.LlamaFactory介绍与linux安装链接:3.LlamaFactory微调qwen,改变模型自我认知LLaMA Factory是由南京大学人工智能创新研究院开发的开源轻量级大模型微调工具包,旨在简化大模型的微调流程,降低大模型定制化门槛。
2026-01-06 15:51:37
862
原创 【大模型进阶】视频课程1: 大模型部署到三种方式
链接:大模型部署到三种方式 视频合集地址维度OllamavLLMLMDeploy核心定位新手友好、轻量试用高性能、高并发推理企业级、全流程部署操作难度极低(一键部署)中等(需配置环境)较高(工程化配置)性能表现基础满足,无极致优化显存利用率高、延迟低兼顾性能与可扩展性适用人群个人用户、新手开发者技术开发者、中小企业企业研发团队、运维团队核心亮点极简易用、快速上手PagedAttention 技术全流程优化、企业级特性。
2026-01-04 20:57:43
995
原创 【大白话 AI 答疑】第10篇 数学可视化网站汇总
本文推荐两个实用的在线学习工具:GeoGebra(https://www.geogebra.org/)提供数学公式可视化功能,其经典版(https://www.geogebra.org/classic)可直观展示函数图形;TensorFlow Playground(https://playground.tensorflow.org/)通过交互式界面帮助用户理解神经网络原理。这两个平台分别适用于数学学习和AI入门,通过可视化方式降低学习难度。
2025-12-26 21:43:35
139
原创 【大白话 AI 答疑】第9篇 深入浅出:sigmoid函数公式设计原理——为何是$e^{-x}$而非$e^x$
本文深入解析了sigmoid函数公式$\frac{1}{1+e^{-x}}$的设计原理。该函数将任意实数输入映射到(0,1)区间,适合二分类任务。选用$e^{-x}$而非$e^x$的关键在于:1)保证单调递增性,使输入越大输出概率越高;2)简化导数计算,便于反向传播。公式设计巧妙结合了数学特性和任务需求,虽然后续ReLU等函数更常用,但理解sigmoid原理对掌握激活函数设计思想至关重要。
2025-12-20 18:00:15
936
原创 【大白话 AI 答疑】 第7篇熵、交叉熵与交叉熵损失的概念梳理及计算示例
熵是信息论中的核心概念,由香农(Shannon)提出,用于衡量一个随机变量取值的不确定性程度。简单来说,熵值越高,随机变量的不确定性就越大;熵值越低,不确定性就越小。当随机变量的取值确定无疑时(比如必然发生的事件),熵值为0;当随机变量所有取值的概率均等时,熵值达到最大。对于离散型随机变量X,其可能的取值为x₁, x₂, …, xₙ,对应的概率分布为P(X=xᵢ) = pᵢ(其中i=1,2,…
2025-12-20 10:48:38
724
原创 【大白话 AI 答疑】第6篇 大模型指令微调:instruction/input/output核心解析及案例
instruction(指令):核心是“任务描述”,用于明确告知模型需要完成的具体工作,比如“翻译”“总结”“分析情绪”等,是模型理解任务目标的关键。input(输入):可理解为“任务素材”,是模型执行任务的直接对象,仅当任务需要具体载体时存在(部分简单任务如“解释什么是AI”可无input),是指令落地的核心依据。output(输出):即“预期结果”,是模型完成任务后应生成的标准答案,用于指导模型学习“指令+输入”与“正确结果”之间的映射关系,是微调的监督信号。告诉模型“做什么”,input。
2025-12-05 16:40:03
856
原创 【大白话 AI 答疑】第5篇 从 “窄域专精” 到 “广谱通用”:传统机器学习与大模型的 6 大核心区别
传统机器学习是“针对具体问题的精准工具”——像一把专门用来切菜的刀,高效但用途单一;大模型是“具备多种能力的通用平台”——像一个多功能工具箱,虽然单个工具的精度可能不如专用工具,但能应对砍、锯、拧等多种场景,且能快速适配新需求。二者并非“替代关系”:在需要高精度、低成本、边缘部署的中小规模任务中,传统机器学习仍是最优选择;而在需要通用能力、跨任务适配、复杂场景处理的需求中,大模型才体现出不可替代的价值。
2025-12-01 17:12:33
996
原创 【大白话 AI 答疑】第4篇 自回归模型与传统机器学习模型的对比
自回归模型与传统机器学习模型在建模目标、数据处理和能力边界上存在根本差异。自回归模型(如GPT)专注于序列生成,依赖无标注海量数据,通过自监督学习捕捉时序依赖,具备通用生成和跨任务泛化能力,输出开放域动态序列。传统模型(如逻辑回归、CNN)则针对特定任务,需结构化标注数据,缺乏时序感知和生成能力,输出封闭域固定结果。自回归模型代表从“被动预测”到“主动生成”的范式跃迁,核心是创造内容而非简单任务拟合。
2025-12-01 11:27:21
966
原创 【大白话 AI 答疑】第3篇 面试必背:自回归模型定义 + GPT 的自回归特性(附对比表)
自回归模型是基于历史信息逐元素生成序列的模型,核心特点是时序依赖和串行生成。GPT是典型的自回归模型,采用Transformer解码器架构,通过掩码自注意力机制确保生成每个token时仅依赖前面内容。与非自回归模型相比,GPT生成更连贯但速度较慢。这种设计使GPT能生成逻辑清晰的长文本,成为优秀对话和创作模型的基础。
2025-12-01 11:18:16
792
原创 【大白话 AI 答疑】第2篇 GPT 全系列发展历程:从 GPT-1 到 GPT-5,每一代的关键突破都在这!
GPT系列从1到5的发展历程展现了AI技术的快速突破。2018年的GPT-1验证了Transformer架构的可行性;2019年GPT-2通过15亿参数实现零样本学习;2020年GPT-3以1750亿参数实现上下文学习;2022年GPT-3.5引入强化学习优化对话体验;2023年GPT-4支持多模态输入和复杂推理;2025年即将发布的GPT-5将实现自主进化,能独立完成复杂任务。每一代都在参数量、训练数据和核心能力上实现突破,推动AI从基础模型向通用智能发展。
2025-12-01 10:47:25
351
原创 【大白话 AI 答疑】第1篇 面试必问:RNN、CNN 和大模型的本质区别到底在哪?
RNN/CNN是针对特定数据类型(序列/空间)的专用工具,解决“单一模态、单一任务”问题;大模型是面向通用任务的基础系统,通过“海量数据+强大架构”实现跨模态、跨任务的泛化能力,本质是从“专用模型”到“通用智能”的范式跃迁。
2025-12-01 10:36:18
269
原创 【GPT入门】DeepSeek OCR 私有化部署指南
本文介绍了DeepSeek OCR开源文档识别工具的私有化部署指南。该工具采用创新视觉压缩技术和3B参数MoE架构,支持100+种语言的印刷体/手写体识别,能精准提取文字、表格、公式等元素。文章详细展示了在3090服务器上的部署流程:包括通过conda创建Python 3.12环境、使用国内镜像下载模型、安装依赖库等步骤。通过对比测试发现,基于vllm引擎的识别速度(52秒)显著快于huggingface版本(2分3秒)。测试效果显示该工具能准确识别图片和报纸文档内容。最后还提供了在线体验版地址供用户试用。
2025-11-18 11:44:00
726
原创 【RAG】一文搞懂 RAG 效果评估:从检索层到端到端,指标、工具、流程全攻略
【摘要】RAG(检索增强生成)效果评估需从检索准确性、生成质量和整体实用性三个维度展开,构建全链路评估体系。评估分为检索层(Precision@k、Recall@k等指标)、生成层(Faithfulness、BLEU等)和端到端(用户满意度、任务完成率),需结合定量指标与人工定性评估。高质量数据集(如RAGAs Benchmark)和自动化工具(RAGAs、LangChain等)可提升评估效率。最终通过错误分析优化检索和生成环节,确保RAG系统在实际场景中的实用性。
2025-10-13 10:42:57
1338
原创 【RAG】从流程角度拆解 RAG 效果优化:覆盖数据、检索、生成全链路的 12 种核心方法
本文系统梳理了RAG(检索增强生成)全流程优化的12种核心方法,涵盖数据预处理、检索、生成和反馈迭代四大环节。在数据环节,提出语义化拆分、文档清洗和元数据增强三大优化方向;在检索环节,强调多源召回融合和重排序优化;在生成环节,重点优化Prompt指令、上下文管理和幻觉抑制;最后通过构建反馈闭环实现持续优化。文章指出RAG优化需系统性修复各环节短板,而非单点调整,才能实现整体性能提升。
2025-10-13 08:57:54
751
原创 【从零构建大模型】 8小时视频课程,一步步带你理解大模型底层原理
- 一、视频核心背景本套视频基于《从零构建大模型》及作者 GitHub 源码讲解,聚焦 embedding 原理、自注意力机制、GPT 模型代码编写、GPT 预训练、分类微调、任务指令微调等核心内容;采用 “费曼学习法” 以讲代学,深化对大模型知识的理解。- 二、视频创作目标个人成长:以讲代学,吃透大模型底层逻辑与构建流程;用户价值:帮有大模型学习需求但 “看书困难” 的朋友降低门槛;能力与推广:宣传个人,提升语言表达力。- 三、反思与改进
2025-10-09 15:49:25
352
原创 【大模型评估】大模型评估框架 HELM(Holistic Evaluation of Language Models)全解析:原理、工具与实践
摘要 HELM(Holistic Evaluation of Language Models)是斯坦福大学提出的大模型评估框架,通过三维场景矩阵(任务、领域、语言)和多层指标体系(性能、特性、伦理、效率)实现全面评估。其开源工具(如crfm-helm)支持标准化任务测试(如MNLI、SQuAD)和自定义扩展,覆盖闭源与开源模型,并重点考量伦理安全与工程效率。相比OpenCompass等框架,HELM更强调合规性与多维度分析,适用于学术研究与企业级模型评估。实践示例展示了如何通过API快速测试模型在特定任务(
2025-10-01 11:51:31
1214
原创 【大模型评估】大模型评估的五类数据
大模型评估数据主要分为五类:1)知识类(如C-Eval、MMLU),用于评估中英文知识掌握程度;2)推理类(如GSM8K、BBH),测试数学和复杂推理能力;3)语言类(如CLUE、AFQMC),衡量中文语义理解和处理能力;4)代码类(如HumanEval、MBPP),评估代码生成质量;5)模态类(如MMBench、SEED-Bench),测试多模态任务表现。这些数据集全面检验大模型在不同领域的性能,为技术优化提供基准支持。
2025-09-30 21:27:37
917
原创 【从零构建大模型】第五章,训练模型
《从零构建LLM》第五章重点介绍了GPT模型的训练过程。文章首先概述了GPT的架构原理,强调其通过预测下一个token实现文本生成。在训练环节,详细解析了损失函数定义、交叉熵计算方法及其相关概念困惑度(perplexity),并给出代码示例。此外,还探讨了温度调节、Top-K采样等生成策略,以及模型参数的保存与加载方法。文末附有公众号二维码,提供更多学习资源。通过图文结合的方式,系统性地讲解了LLM训练的核心技术要点。
2025-09-28 16:46:13
304
原创 【从零构建大模型】第四章从零构建GPT模型,生成内容
本文介绍了从零构建GPT模型的关键步骤。首先概述了GPT架构的核心思想,然后详细讲解了构建过程中的技术要点:包括使用层归一化来稳定训练、采用GELU激活函数实现前馈网络、通过快捷连接解决梯度消失问题等。文章通过代码片段和结构图展示了Transformer模块的具体实现,最终呈现了完整的GPT模型架构。这些内容来自《从零构建LLM》的学习笔记,旨在帮助读者深入理解GPT的工作原理和实现方法,为后续的LLM学习打下基础。
2025-09-28 11:09:44
605
原创 【从零构建大模型】第三章,从零构建简单transformer与带权重transformer、多头注意力
本文介绍了从零构建Transformer模型的关键步骤,重点讲解了自注意力机制及其实现方法。内容分为简化版自注意力和带权重的注意力机制两部分,详细阐述了计算注意力分数、归一化权重、因果注意力掩码等核心概念。通过代码示例展示了如何初始化QKV矩阵、计算注意力分数并应用dropout防止过拟合。文章采用分步递进的方式,从基础概念到完整实现,帮助读者深入理解Transformer的工作原理,特别是自注意力机制在语言模型中的关键作用。
2025-09-27 16:57:59
749
原创 【从零构建大模型】第二章,embeddbing构建思路总结
本文总结了《从零构建LLM》中关于embedding构建的核心内容。主要分为三个阶段:构建LLM、训练模型和微调。重点介绍了文本词元化(将文本转化为离散token)、token与tokenId相互转换、使用特殊token处理未知词汇、OpenAI采用的BPE分词器tiktoken,以及滑动窗口采样方法。最后说明了如何将token转为embedding,并添加位置向量以捕捉词汇位置信息,为transformer模型提供输入。文章通过图文结合的方式,系统梳理了embedding构建的关键技术环节。
2025-09-27 16:48:44
500
原创 【GPT入门】第71课 autogen介绍与代码实现股票分析汇报多智能体
摘要: AutoGen是微软推出的开源多智能体协作框架,支持定制化Agent角色(如分析师、程序员等)并通过交互完成复杂任务。其核心特点包括多Agent协作、工具集成(如API调用)、人类参与机制及低代码开发(通过AutoGen Studio)。文中以股票分析为例,设计了3个Agent协作流程:股票分析Agent获取数据,Google搜索Agent补充信息,最终由汇报Agent生成报告。代码实现展示了如何集成yfinance、Google搜索API等功能工具,体现了AutoGen在自动化工作流中的高效应用。
2025-09-23 22:34:56
1055
原创 【GPT入门】第70课 ragflow简单入门
【摘要】本文介绍了开源RAG引擎RAGFlow的安装和使用方法。RAGFlow是一款基于深度文档理解的检索增强生成引擎,可结合大语言模型为复杂格式数据提供智能问答功能。文章详细讲解了通过Docker快速部署RAGFlow服务的步骤,包括克隆代码库、切换版本、使用CPU/GPU启动容器等操作。同时展示了UI界面的主要功能模块,包括模型配置(需设置嵌入模型和聊天模型)、知识库创建等关键操作流程,并配有界面截图说明。该指南帮助用户快速搭建本地RAG服务并实现基于数据集的AI对话功能。
2025-09-23 20:00:56
426
原创 【GPT入门】69课 分类任务: 基于BERT训练情感分类与区别二分类本质思考
本文介绍了基于BERT模型进行微博情感分类任务的实现方案。主要内容包括:1) 使用Hugging Face下载微博情感分类数据集,包含8种情感标签;2) 数据预处理流程,包括加载CSV格式数据、BERT分词器处理文本、格式化标签列;3) 模型训练配置,采用bert-base-chinese预训练模型,设置batch_size=200、学习率2e-5等参数;4) 使用Trainer API进行模型训练,并计算分类准确率评估指标。该方案完整展示了从数据准备到模型训练的NLP分类任务全流程,适用于多类别情感分析场
2025-09-19 11:02:59
692
原创 【GPT入门】第68课 分类任务: 基于BERT训练情感分类
是一款专为中文情感分析设计的数据资源包。它汇集了来自网络平台的多样化评论数据,主要覆盖酒店住宿体验、笔记本电脑使用评价以及书籍阅读感受三大领域。数据集中的每一条评论都经过人工标注,确保了情感标签的准确性和可靠性,对于训练情感分析模型至关重要。
2025-09-18 23:32:01
948
原创 【GPT入门】第67课 多模态模型实践: 本地部署文生视频模型和图片推理模型
本文介绍了两种多模态模型的本地部署方法:1)文生视频模型CogVideoX-5b的部署,包括环境配置、模型下载和测试代码,通过输入文本提示生成短视频;2)图片推理模型llama3.2-vision的部署,使用ollama框架实现图像识别与描述功能,支持英语的视觉问答任务。两种模型均提供了详细的安装步骤和测试示例,展示了多模态AI在内容生成和视觉理解方面的应用潜力。
2025-09-12 15:59:16
1247
原创 【GPT入门】第66 课 llamaIndex调用远程llm模型与embedding模型的方法
本文介绍了使用llamaIndex调用远程LLM模型与Embedding模型的方法。主要包括两类调用方式:1.调用私有模型,通过OpenAILike封装兼容OpenAI API的第三方工具,支持对话和Embedding功能;2.调用公开平台模型,以GLM为例展示如何配置API参数并获取响应。两种方式都提供了详细的代码示例和必要的安装命令,帮助开发者快速实现远程模型调用。
2025-09-09 16:39:16
408
原创 【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题
本文介绍了如何通过环境变量指定vLLM在特定GPU卡上运行的方法。核心命令是在vLLM服务启动前添加CUDA_VISIBLE_DEVICES=1,强制程序使用第二张GPU卡(编号从0开始)。文中提供了完整命令示例并说明可通过nvidia-smi查看GPU编号,同时展示了使用nvitop工具监控GPU使用情况的对比截图。该方法能有效解决单卡显存不足问题,实现多GPU任务分流。
2025-09-08 15:33:13
566
原创 【GPT入门】第64课 Ilamaindex初步认识与llm幻觉解决方法
LlamaIndex(前身为GPT Index)是一个专为大型语言模型(LLMs)设计的开源数据框架。核心目标:连接LLM与异构外部数据源,解决模型在私有/实时数据场景下的局限性,通过高效索引、检索与上下文增强技术,赋能LLM实现精准的数据感知应用。核心功能数据连接器。
2025-09-02 11:24:50
890
原创 【GPT入门】第63课 XTuner 微调大模型必备:训练日志核心指标则(iter/step/epoch)计算规则
iter是最核心的训练进度指标,直接对应参数更新次数,由max_iters控制训练总长度。epoch是相对概念,依赖于数据集大小和batch_size,可用于辅助判断模型对数据的遍历程度。step在单卡场景下与iter一致,仅在分布式训练中可能有差异。日志中直接反映了训练进度:当前完成5110次参数更新,距离目标910000次更新还有剩余迭代次数。
2025-09-01 09:03:29
343
原创 【GPT入门】第62课 情感对话场景模型选型、训练与评测方法,整体架构设计
本文介绍了情感对话模型的选型、训练与评测方法。首先根据中文理解能力选择了Qwen1.5-0.5B和1.8B两个模型,使用CLUE数据集中的短文本分类和自然语言推理任务进行评测,结果显示1.8B模型效果更优。接着详细说明了模型训练过程,包括环境配置、数据准备和参数调整(batch_size设为5以避免OOM)。最后提出主观评测方案,使用5个情感类问题评估模型输出,训练数据包含"温柔/毒舌"风格的对话样本。整体流程覆盖了从模型选择到效果验证的全过程。
2025-08-31 18:16:18
1019
原创 【GPT入门】第61课 手把手教你增加模型归一化层
本文介绍了如何为缺少正则化层的文本嵌入模型添加归一化层,以规范文本生成向量的长度。首先从ModelScope下载基础模型,然后使用Sentence Transformer库添加缺失的归一化层,组合成包含Transformer、Pooling和Normalize三部分的完整模型。通过新旧模型对比可见,修改后的模型结构增加了2_Normalize层,能确保输出向量长度为1。最后将改造后的模型保存到指定路径,便于后续使用。这种方法适用于需要对文本嵌入向量进行归一化处理的场景。
2025-08-31 13:16:47
187
原创 【GPT入门】第60课 openCompase实践图文介绍指南
本文介绍了使用OpenCompass评估生成式大模型的实践指南。主要内容包括: 评估指标:介绍了准确率、困惑度、生成质量等核心评估指标,以及ROUGE、CLP等高级指标。 数据集:详细说明了OpenCompass支持的70+数据集,涵盖知识、推理、语言等五大能力维度,并区分了_gen和_ppl后缀数据集的使用差异。 安装部署:提供了从conda环境配置到源码安装OpenCompass的完整流程,包括数据集准备和模型下载。 实践操作:演示了如何运行评估命令,包括单模型和多模型评估,以及配置文件修改方法。 实用
2025-08-27 15:20:22
1144
原创 【GPT入门】第59课 大模型内存计算指南:7B/8B/70B 模型在 32/16/8/4bit 精度下的内存需求测算
在大模型部署与开发过程中,“模型需要多大内存” 是开发者首先要解决的核心问题 —— 内存不足会导致模型加载失败、推理崩溃,甚至硬件损坏;内存冗余则会造成资源浪费。本文从大模型内存计算的底层逻辑出发,结合 7B、8B、70B 三类典型模型,以及 32bit(FP32)、16bit(FP16/TF32)、8bit(INT8)、4bit(INT4) 四种常用精度,详细说明模型内存需求的计算方法,帮助精准匹配硬件资源。
2025-08-25 15:34:24
1010
原创 【GPT入门】第58课 感性认识Imdeploy介绍与实践
LMDeploy是一款高效的大语言模型部署工具箱,支持量化、推理和服务。核心优势包括推理性能是vLLM的1.8倍、支持4bit/8bit量化(4bit推理效率提升2.4倍)、多机多卡服务部署。安装只需conda创建环境并pip安装。部署流程涵盖模型下载(支持学术加速)、离线推理测试、在线API服务启动(端口23333)和直接对话功能。重点介绍了KV Cache量化技术,int8量化几乎无损性能,能显著提升吞吐量,实测RPS提升30%-40%。通过quant_policy参数可轻松应用量化(4/8对应int4
2025-08-25 11:06:27
891
原创 【GPT入门】第57课 详解 LLamaFactory 与 XTuner 实现大模型多卡分布式训练的方案与实践
本文介绍了大模型多卡计算的两种实践方案:LLamaFactory和XTuner。在理论部分,详细讲解了DeepSpeed的三种训练方式(Zero-1/2/3)及其优化原理。LLamaFactory实践展示了如何通过UI界面配置DeepSpeed进行单机多卡训练,并解决了版本兼容性问题。XTuner部分则介绍了其作为大模型微调工具链的特点,包括安装步骤、配置文件修改、训练数据准备等关键环节,并提供了多卡训练的具体操作方法。两种方案都通过可视化展示了GPU资源使用情况,为开发者提供了大模型分布式训练的实际参考。
2025-08-23 13:27:51
838
原创 【GPT入门】第56课 大模型分布式训练的三种方式、模型层介绍及DeepSpeed ZeRO的支持
文章摘要:本文介绍了大模型分布式训练的三种核心方式(数据并行、模型并行和流水线并行)及其与模型层结构的关系,重点阐述了DeepSpeed ZeRO技术的支持作用。ZeRO通过分片优化器状态、梯度和参数,有效降低内存占用,可与三种并行方式灵活组合,突破大模型训练的内存限制。文章还详细解析了Transformer架构的核心层结构,以及ZeRO在不同并行策略中的具体应用优势,为大规模模型训练提供了关键技术方案。
2025-08-23 06:54:11
842
原创 【GPT入门】第55课 deepseek 8b的学生模型训练前后的变化内容
教师模型(DeepSeek R1):参数固定,提供学习目标和知识范本。学生模型(基于Qwen3训练得到的DeepSeek 8B):Qwen3的初始参数被改写,最终形成新的参数体系,同时继承了教师模型的核心能力。蒸馏的关键是学生参数的重塑,而非教师参数的修改,目标是让小模型通过学习教师的“经验”,在有限参数量下达到更优性能。
2025-08-22 17:42:11
429
原创 【GPT入门】第54课 量化位数与存储大小的影响
这种存储压缩对大模型部署至关重要,尤其是在手机、边缘设备等资源有限的场景中。在大模型量化中,32位、16位、8位、4位指的是。,本质是通过减少表示每个参数的比特数来压缩模型。
2025-08-22 16:33:54
317
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅