- 博客(205)
- 收藏
- 关注
原创 【GPT入门】DeepSeek OCR 私有化部署指南
本文介绍了DeepSeek OCR开源文档识别工具的私有化部署指南。该工具采用创新视觉压缩技术和3B参数MoE架构,支持100+种语言的印刷体/手写体识别,能精准提取文字、表格、公式等元素。文章详细展示了在3090服务器上的部署流程:包括通过conda创建Python 3.12环境、使用国内镜像下载模型、安装依赖库等步骤。通过对比测试发现,基于vllm引擎的识别速度(52秒)显著快于huggingface版本(2分3秒)。测试效果显示该工具能准确识别图片和报纸文档内容。最后还提供了在线体验版地址供用户试用。
2025-11-18 11:44:00
628
原创 【RAG】一文搞懂 RAG 效果评估:从检索层到端到端,指标、工具、流程全攻略
【摘要】RAG(检索增强生成)效果评估需从检索准确性、生成质量和整体实用性三个维度展开,构建全链路评估体系。评估分为检索层(Precision@k、Recall@k等指标)、生成层(Faithfulness、BLEU等)和端到端(用户满意度、任务完成率),需结合定量指标与人工定性评估。高质量数据集(如RAGAs Benchmark)和自动化工具(RAGAs、LangChain等)可提升评估效率。最终通过错误分析优化检索和生成环节,确保RAG系统在实际场景中的实用性。
2025-10-13 10:42:57
1220
原创 【RAG】从流程角度拆解 RAG 效果优化:覆盖数据、检索、生成全链路的 12 种核心方法
本文系统梳理了RAG(检索增强生成)全流程优化的12种核心方法,涵盖数据预处理、检索、生成和反馈迭代四大环节。在数据环节,提出语义化拆分、文档清洗和元数据增强三大优化方向;在检索环节,强调多源召回融合和重排序优化;在生成环节,重点优化Prompt指令、上下文管理和幻觉抑制;最后通过构建反馈闭环实现持续优化。文章指出RAG优化需系统性修复各环节短板,而非单点调整,才能实现整体性能提升。
2025-10-13 08:57:54
713
原创 【从零构建大模型】 8小时视频课程,一步步带你理解大模型底层原理
- 一、视频核心背景本套视频基于《从零构建大模型》及作者 GitHub 源码讲解,聚焦 embedding 原理、自注意力机制、GPT 模型代码编写、GPT 预训练、分类微调、任务指令微调等核心内容;采用 “费曼学习法” 以讲代学,深化对大模型知识的理解。- 二、视频创作目标个人成长:以讲代学,吃透大模型底层逻辑与构建流程;用户价值:帮有大模型学习需求但 “看书困难” 的朋友降低门槛;能力与推广:宣传个人,提升语言表达力。- 三、反思与改进
2025-10-09 15:49:25
327
原创 【大模型评估】大模型评估框架 HELM(Holistic Evaluation of Language Models)全解析:原理、工具与实践
摘要 HELM(Holistic Evaluation of Language Models)是斯坦福大学提出的大模型评估框架,通过三维场景矩阵(任务、领域、语言)和多层指标体系(性能、特性、伦理、效率)实现全面评估。其开源工具(如crfm-helm)支持标准化任务测试(如MNLI、SQuAD)和自定义扩展,覆盖闭源与开源模型,并重点考量伦理安全与工程效率。相比OpenCompass等框架,HELM更强调合规性与多维度分析,适用于学术研究与企业级模型评估。实践示例展示了如何通过API快速测试模型在特定任务(
2025-10-01 11:51:31
1081
原创 【大模型评估】大模型评估的五类数据
大模型评估数据主要分为五类:1)知识类(如C-Eval、MMLU),用于评估中英文知识掌握程度;2)推理类(如GSM8K、BBH),测试数学和复杂推理能力;3)语言类(如CLUE、AFQMC),衡量中文语义理解和处理能力;4)代码类(如HumanEval、MBPP),评估代码生成质量;5)模态类(如MMBench、SEED-Bench),测试多模态任务表现。这些数据集全面检验大模型在不同领域的性能,为技术优化提供基准支持。
2025-09-30 21:27:37
882
原创 【从零构建大模型】第五章,训练模型
《从零构建LLM》第五章重点介绍了GPT模型的训练过程。文章首先概述了GPT的架构原理,强调其通过预测下一个token实现文本生成。在训练环节,详细解析了损失函数定义、交叉熵计算方法及其相关概念困惑度(perplexity),并给出代码示例。此外,还探讨了温度调节、Top-K采样等生成策略,以及模型参数的保存与加载方法。文末附有公众号二维码,提供更多学习资源。通过图文结合的方式,系统性地讲解了LLM训练的核心技术要点。
2025-09-28 16:46:13
294
原创 【从零构建大模型】第四章从零构建GPT模型,生成内容
本文介绍了从零构建GPT模型的关键步骤。首先概述了GPT架构的核心思想,然后详细讲解了构建过程中的技术要点:包括使用层归一化来稳定训练、采用GELU激活函数实现前馈网络、通过快捷连接解决梯度消失问题等。文章通过代码片段和结构图展示了Transformer模块的具体实现,最终呈现了完整的GPT模型架构。这些内容来自《从零构建LLM》的学习笔记,旨在帮助读者深入理解GPT的工作原理和实现方法,为后续的LLM学习打下基础。
2025-09-28 11:09:44
596
原创 【从零构建大模型】第三章,从零构建简单transformer与带权重transformer、多头注意力
本文介绍了从零构建Transformer模型的关键步骤,重点讲解了自注意力机制及其实现方法。内容分为简化版自注意力和带权重的注意力机制两部分,详细阐述了计算注意力分数、归一化权重、因果注意力掩码等核心概念。通过代码示例展示了如何初始化QKV矩阵、计算注意力分数并应用dropout防止过拟合。文章采用分步递进的方式,从基础概念到完整实现,帮助读者深入理解Transformer的工作原理,特别是自注意力机制在语言模型中的关键作用。
2025-09-27 16:57:59
734
原创 【从零构建大模型】第二章,embeddbing构建思路总结
本文总结了《从零构建LLM》中关于embedding构建的核心内容。主要分为三个阶段:构建LLM、训练模型和微调。重点介绍了文本词元化(将文本转化为离散token)、token与tokenId相互转换、使用特殊token处理未知词汇、OpenAI采用的BPE分词器tiktoken,以及滑动窗口采样方法。最后说明了如何将token转为embedding,并添加位置向量以捕捉词汇位置信息,为transformer模型提供输入。文章通过图文结合的方式,系统梳理了embedding构建的关键技术环节。
2025-09-27 16:48:44
494
原创 【GPT入门】第71课 autogen介绍与代码实现股票分析汇报多智能体
摘要: AutoGen是微软推出的开源多智能体协作框架,支持定制化Agent角色(如分析师、程序员等)并通过交互完成复杂任务。其核心特点包括多Agent协作、工具集成(如API调用)、人类参与机制及低代码开发(通过AutoGen Studio)。文中以股票分析为例,设计了3个Agent协作流程:股票分析Agent获取数据,Google搜索Agent补充信息,最终由汇报Agent生成报告。代码实现展示了如何集成yfinance、Google搜索API等功能工具,体现了AutoGen在自动化工作流中的高效应用。
2025-09-23 22:34:56
1018
原创 【GPT入门】第70课 ragflow简单入门
【摘要】本文介绍了开源RAG引擎RAGFlow的安装和使用方法。RAGFlow是一款基于深度文档理解的检索增强生成引擎,可结合大语言模型为复杂格式数据提供智能问答功能。文章详细讲解了通过Docker快速部署RAGFlow服务的步骤,包括克隆代码库、切换版本、使用CPU/GPU启动容器等操作。同时展示了UI界面的主要功能模块,包括模型配置(需设置嵌入模型和聊天模型)、知识库创建等关键操作流程,并配有界面截图说明。该指南帮助用户快速搭建本地RAG服务并实现基于数据集的AI对话功能。
2025-09-23 20:00:56
387
原创 【GPT入门】69课 分类任务: 基于BERT训练情感分类与区别二分类本质思考
本文介绍了基于BERT模型进行微博情感分类任务的实现方案。主要内容包括:1) 使用Hugging Face下载微博情感分类数据集,包含8种情感标签;2) 数据预处理流程,包括加载CSV格式数据、BERT分词器处理文本、格式化标签列;3) 模型训练配置,采用bert-base-chinese预训练模型,设置batch_size=200、学习率2e-5等参数;4) 使用Trainer API进行模型训练,并计算分类准确率评估指标。该方案完整展示了从数据准备到模型训练的NLP分类任务全流程,适用于多类别情感分析场
2025-09-19 11:02:59
657
原创 【GPT入门】第68课 分类任务: 基于BERT训练情感分类
是一款专为中文情感分析设计的数据资源包。它汇集了来自网络平台的多样化评论数据,主要覆盖酒店住宿体验、笔记本电脑使用评价以及书籍阅读感受三大领域。数据集中的每一条评论都经过人工标注,确保了情感标签的准确性和可靠性,对于训练情感分析模型至关重要。
2025-09-18 23:32:01
883
原创 【GPT入门】第67课 多模态模型实践: 本地部署文生视频模型和图片推理模型
本文介绍了两种多模态模型的本地部署方法:1)文生视频模型CogVideoX-5b的部署,包括环境配置、模型下载和测试代码,通过输入文本提示生成短视频;2)图片推理模型llama3.2-vision的部署,使用ollama框架实现图像识别与描述功能,支持英语的视觉问答任务。两种模型均提供了详细的安装步骤和测试示例,展示了多模态AI在内容生成和视觉理解方面的应用潜力。
2025-09-12 15:59:16
1186
原创 【GPT入门】第66 课 llamaIndex调用远程llm模型与embedding模型的方法
本文介绍了使用llamaIndex调用远程LLM模型与Embedding模型的方法。主要包括两类调用方式:1.调用私有模型,通过OpenAILike封装兼容OpenAI API的第三方工具,支持对话和Embedding功能;2.调用公开平台模型,以GLM为例展示如何配置API参数并获取响应。两种方式都提供了详细的代码示例和必要的安装命令,帮助开发者快速实现远程模型调用。
2025-09-09 16:39:16
377
原创 【GPT入门】第65课 vllm指定其他卡运行的方法,解决单卡CUDA不足的问题
本文介绍了如何通过环境变量指定vLLM在特定GPU卡上运行的方法。核心命令是在vLLM服务启动前添加CUDA_VISIBLE_DEVICES=1,强制程序使用第二张GPU卡(编号从0开始)。文中提供了完整命令示例并说明可通过nvidia-smi查看GPU编号,同时展示了使用nvitop工具监控GPU使用情况的对比截图。该方法能有效解决单卡显存不足问题,实现多GPU任务分流。
2025-09-08 15:33:13
440
原创 【GPT入门】第64课 Ilamaindex初步认识与llm幻觉解决方法
LlamaIndex(前身为GPT Index)是一个专为大型语言模型(LLMs)设计的开源数据框架。核心目标:连接LLM与异构外部数据源,解决模型在私有/实时数据场景下的局限性,通过高效索引、检索与上下文增强技术,赋能LLM实现精准的数据感知应用。核心功能数据连接器。
2025-09-02 11:24:50
874
原创 【GPT入门】第63课 XTuner 微调大模型必备:训练日志核心指标则(iter/step/epoch)计算规则
iter是最核心的训练进度指标,直接对应参数更新次数,由max_iters控制训练总长度。epoch是相对概念,依赖于数据集大小和batch_size,可用于辅助判断模型对数据的遍历程度。step在单卡场景下与iter一致,仅在分布式训练中可能有差异。日志中直接反映了训练进度:当前完成5110次参数更新,距离目标910000次更新还有剩余迭代次数。
2025-09-01 09:03:29
318
原创 【GPT入门】第62课 情感对话场景模型选型、训练与评测方法,整体架构设计
本文介绍了情感对话模型的选型、训练与评测方法。首先根据中文理解能力选择了Qwen1.5-0.5B和1.8B两个模型,使用CLUE数据集中的短文本分类和自然语言推理任务进行评测,结果显示1.8B模型效果更优。接着详细说明了模型训练过程,包括环境配置、数据准备和参数调整(batch_size设为5以避免OOM)。最后提出主观评测方案,使用5个情感类问题评估模型输出,训练数据包含"温柔/毒舌"风格的对话样本。整体流程覆盖了从模型选择到效果验证的全过程。
2025-08-31 18:16:18
980
原创 【GPT入门】第61课 手把手教你增加模型归一化层
本文介绍了如何为缺少正则化层的文本嵌入模型添加归一化层,以规范文本生成向量的长度。首先从ModelScope下载基础模型,然后使用Sentence Transformer库添加缺失的归一化层,组合成包含Transformer、Pooling和Normalize三部分的完整模型。通过新旧模型对比可见,修改后的模型结构增加了2_Normalize层,能确保输出向量长度为1。最后将改造后的模型保存到指定路径,便于后续使用。这种方法适用于需要对文本嵌入向量进行归一化处理的场景。
2025-08-31 13:16:47
182
原创 【GPT入门】第60课 openCompase实践图文介绍指南
本文介绍了使用OpenCompass评估生成式大模型的实践指南。主要内容包括: 评估指标:介绍了准确率、困惑度、生成质量等核心评估指标,以及ROUGE、CLP等高级指标。 数据集:详细说明了OpenCompass支持的70+数据集,涵盖知识、推理、语言等五大能力维度,并区分了_gen和_ppl后缀数据集的使用差异。 安装部署:提供了从conda环境配置到源码安装OpenCompass的完整流程,包括数据集准备和模型下载。 实践操作:演示了如何运行评估命令,包括单模型和多模型评估,以及配置文件修改方法。 实用
2025-08-27 15:20:22
1118
原创 【GPT入门】第59课 大模型内存计算指南:7B/8B/70B 模型在 32/16/8/4bit 精度下的内存需求测算
在大模型部署与开发过程中,“模型需要多大内存” 是开发者首先要解决的核心问题 —— 内存不足会导致模型加载失败、推理崩溃,甚至硬件损坏;内存冗余则会造成资源浪费。本文从大模型内存计算的底层逻辑出发,结合 7B、8B、70B 三类典型模型,以及 32bit(FP32)、16bit(FP16/TF32)、8bit(INT8)、4bit(INT4) 四种常用精度,详细说明模型内存需求的计算方法,帮助精准匹配硬件资源。
2025-08-25 15:34:24
931
原创 【GPT入门】第58课 感性认识Imdeploy介绍与实践
LMDeploy是一款高效的大语言模型部署工具箱,支持量化、推理和服务。核心优势包括推理性能是vLLM的1.8倍、支持4bit/8bit量化(4bit推理效率提升2.4倍)、多机多卡服务部署。安装只需conda创建环境并pip安装。部署流程涵盖模型下载(支持学术加速)、离线推理测试、在线API服务启动(端口23333)和直接对话功能。重点介绍了KV Cache量化技术,int8量化几乎无损性能,能显著提升吞吐量,实测RPS提升30%-40%。通过quant_policy参数可轻松应用量化(4/8对应int4
2025-08-25 11:06:27
880
原创 【GPT入门】第57课 详解 LLamaFactory 与 XTuner 实现大模型多卡分布式训练的方案与实践
本文介绍了大模型多卡计算的两种实践方案:LLamaFactory和XTuner。在理论部分,详细讲解了DeepSpeed的三种训练方式(Zero-1/2/3)及其优化原理。LLamaFactory实践展示了如何通过UI界面配置DeepSpeed进行单机多卡训练,并解决了版本兼容性问题。XTuner部分则介绍了其作为大模型微调工具链的特点,包括安装步骤、配置文件修改、训练数据准备等关键环节,并提供了多卡训练的具体操作方法。两种方案都通过可视化展示了GPU资源使用情况,为开发者提供了大模型分布式训练的实际参考。
2025-08-23 13:27:51
787
原创 【GPT入门】第56课 大模型分布式训练的三种方式、模型层介绍及DeepSpeed ZeRO的支持
文章摘要:本文介绍了大模型分布式训练的三种核心方式(数据并行、模型并行和流水线并行)及其与模型层结构的关系,重点阐述了DeepSpeed ZeRO技术的支持作用。ZeRO通过分片优化器状态、梯度和参数,有效降低内存占用,可与三种并行方式灵活组合,突破大模型训练的内存限制。文章还详细解析了Transformer架构的核心层结构,以及ZeRO在不同并行策略中的具体应用优势,为大规模模型训练提供了关键技术方案。
2025-08-23 06:54:11
830
原创 【GPT入门】第55课 deepseek 8b的学生模型训练前后的变化内容
教师模型(DeepSeek R1):参数固定,提供学习目标和知识范本。学生模型(基于Qwen3训练得到的DeepSeek 8B):Qwen3的初始参数被改写,最终形成新的参数体系,同时继承了教师模型的核心能力。蒸馏的关键是学生参数的重塑,而非教师参数的修改,目标是让小模型通过学习教师的“经验”,在有限参数量下达到更优性能。
2025-08-22 17:42:11
414
原创 【GPT入门】第54课 量化位数与存储大小的影响
这种存储压缩对大模型部署至关重要,尤其是在手机、边缘设备等资源有限的场景中。在大模型量化中,32位、16位、8位、4位指的是。,本质是通过减少表示每个参数的比特数来压缩模型。
2025-08-22 16:33:54
277
原创 【GPT入门】第53课 LlamaFactory微调效果与vllm部署效果不一致问题解决
本文讨论了LLM微调与部署中的对话模板不一致问题。以Qwen模型为例,对比了LlamaFactory训练效果与vLLM部署效果的差异,发现两者模板规范不同导致输出异常。文章提出了两种解决方案:1)通过Jinja模板文件指定vLLM的对话模板;2)直接修改模型的tokenizer配置。实践验证了方法一的有效性,但指出openwebui会覆盖自定义模板。核心观点是:部署时应以训练框架的模板为准,而非模型官方模板,因为对话模板仅控制输出格式,不影响模型能力。最后强调训练与推理框架的模板对齐原则。
2025-08-22 09:46:24
1187
原创 【GPT入门】第52课 openwebui安装与使用
它支持多种大语言模型运行器,如 Ollama 和兼容 OpenAI 的 API,并内置了用于检索增强生成(RAG)的推理引擎,是一款功能强大的人工智能部署解决方案。如果是微调的llm,微调的llm可能与openwebui的不一致,并且就算部署时指定模板,openwebui会每次与模型交互式,强势刷新对话模板。auto中增加端口转发,端口是8080, 如果是本地电脑,不需要端口转发。官网: https://docs.openwebui.com/用的对话模板:不是模型自带的。
2025-08-21 17:30:53
567
原创 【GPT入门】第51课 Conda环境迁移教程:将xxzh环境从默认路径迁移到指定目录
本文介绍了Conda环境迁移的完整流程,以将xxzh环境从默认路径迁移到指定目录为例。主要步骤包括:创建目标目录、使用conda create --clone命令克隆环境、验证新环境可用性、删除旧环境(可选)以及简化激活命令(可选)。通过--prefix参数可指定新环境路径,避免手动移动导致的路径问题。文章还补充了创建新环境时直接指定目录的方法(conda create --prefix /path/to/new/environment python=3.10)。该教程适用于需要重新组织Conda环境存储位
2025-08-21 16:57:02
279
原创 【GPT入门】第51课 将hf模型转换为GGUF
本文介绍了将Hugging Face模型转换为GGUF格式并在ollama上运行的方法。首先通过llama.cpp项目将Lora微调后的Qwen2.5-0.5B-Instruct模型转换为GGUF格式,然后安装ollama并创建自定义模型文件,最终成功加载运行转换后的模型。整个流程包括模型转换、ollama环境配置和模型部署测试三个主要步骤,实现了在ollama支持的机器上运行转换后的模型。
2025-08-20 23:05:44
248
原创 【GPT入门】第50课 LlamaFacotory 客观评估模型效果
本文介绍了使用LlamaFactory训练千问模型并进行效果评估的过程。通过配置训练数据(包含"弱智吧"问答数据)和调整批次大小(每批50条数据),观察到训练损失收敛后模型效果显著提升。客观评估指标显示:BLEU-4为88.85,ROUGE-1为92.91,ROUGE-2为90.54,ROUGE-L为92.09。但作者指出评估分数过高可能因使用了训练数据测试,建议改用非训练数据进行更准确评估。训练日志详细记录了模型加载和参数配置过程,包括24层网络结构和32768的最大位置嵌入等关键参数
2025-08-20 15:44:45
520
原创 【GPT入门】第49课 LlamaFacotory 训练千问
避坑经验:发现先安装vllm后安装LlamaFactory有依赖冲突,改为先安装LlamaFacotory后安装vllm。直接安装 2.2.0,这个安装有点久,耐心等。合并原模型与lora训练结果。autodl的学术加速。训练后,目录结构与大小。
2025-08-20 15:37:55
1382
原创 【大模型基础知识】1.详解 GPU 显存:定义及 GPU 计算速度快的原因
GPU显存作为支撑GPU高性能计算的“高速数据仓库”,为GPU的高效运行提供了数据存储和快速访问的基础。而GPU自身的大规模并行架构、高带宽显存以及专用加速单元,使其在需要海量并行计算的场景(如AI、科学计算、图形渲染)中,表现出远超CPU的计算速度。两者的结合,让GPU成为了“计算加速”的核心利器。
2025-08-18 17:16:17
695
原创 【GPT入门】第48课 LlamaFacotory 合并原模型与LoRA模型
本文介绍了如何使用LlamaFactory工具合并原模型与LoRA训练的增量模型。通过llamafactory-cli webui执行合并操作,验证了合并后模型大小保持15GB不变。详细展示了合并后的模型文件结构,包含4个主要的分片模型文件(总大小约15GB)及其他配置文件。最后通过测试截图验证了合并后模型的功能完整性,展示了模型的实际运行效果。整个过程演示了从模型合并到功能验证的完整流程,为使用LoRA技术进行模型微调提供了实用参考。
2025-08-18 11:12:20
304
原创 【GPT入门】第47课 大模型量化中 float32/float16/uint8/int4 的区别解析:从位数到应用场景
精度(float类为浮点数,保留小数精度;uint/int为整数,精度损失更明显)模型大小:float32(最大)→ int4(最小,仅为float32的1/8)计算效率(位数越少,硬件计算单元单次处理的数据量越大,速度越快)适用阶段float32 多用于训练(需高精度保留梯度);其他类型多用于推理(以精度换速度/存储)。
2025-08-15 16:17:23
450
原创 为什么用 hf download 下载的模型比 AutoModelForCausalLM.from_pretrained 加载的大很多?
下载的是模型仓库的完整原始文件集(包含所有格式、分片和冗余内容),而仅加载必要的、经过优化处理的文件(如适配精度、合并分片),因此前者的文件总大小会显著大于后者。如果需要控制下载大小,可以在中指定精度参数(如),或通过手动筛选所需文件(如仅下载特定分片和配置文件)。
2025-08-14 10:28:29
334
原创 【GPT入门】第46课 vllm安装、部署与使用
本文介绍了vLLM的安装、部署与使用方法。首先需要准备CUDA 12.1服务器环境,建议使用conda创建隔离环境安装vLLM以避免兼容性问题。文中详细展示了两种使用方式:1) 部署OpenAI兼容的在线推理服务,包括启动Qwen2.5-0.5B-Instruct模型服务器、通过curl和Python客户端调用API;2) 离线模型调用示例,通过LLM类和SamplingParams实现文本生成。测试发现在线服务未正确使用GPU资源的问题待后续排查。文中提供了完整的代码示例和运行效果截图,帮助开发者快速掌握
2025-08-13 04:11:29
1327
原创 Flink Redis维表:Broadcast Join与Lookup Join对比及SQL示例
本文对比了Flink中Redis维表关联的两种方案:Broadcast Join和Lookup Join。Broadcast Join适合小维表(<1GB),通过广播到所有任务实现本地关联,延迟低但内存消耗高;Lookup Join则适合大维表,通过实时查询Redis获取最新数据,内存占用低但延迟较高。文章详细分析了两者的原理、适用场景和性能差异,并提供了两种方案的SQL实现示例。最后建议根据维表大小、更新频率和资源情况选择合适方案,或采用混合模式平衡性能与资源。
2025-08-12 14:37:12
1116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅