
大模型知识学习
文章平均质量分 67
从现在开始,每日学习一个大模型知识点
保持成长
人生之河,奔腾向前!我心坚定,为梦前行!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Deepseek模型技术之MOE模型
最近Deepseek(后续简称“DS”)爆火,所有人都在谈论DS厉害,最近学习整理了一下deepseekMOE技术背后的MOE模型,MOE模型具体是什么?它和传统稠密(dense)结构的transformers模型有什么区别?它的工作原理是什么?以上内容仅代表个人理解,如有错误欢迎交流。原创 2025-03-05 15:48:46 · 192 阅读 · 0 评论 -
浅谈文生图Stable Diffusion(SD)相关模型基础
简单分享关于文生图模型Stable Diffusion的基础知识,包含涉及的相关模型知识,如:VAE/UNet/Diffusion Mode等模型基础知识原创 2024-12-18 16:36:51 · 1879 阅读 · 0 评论 -
浅谈图像理解模型CLIP
浅谈多模态文生图SD模型成功的基石---CLIP图文匹配模型原创 2024-12-18 14:48:53 · 1863 阅读 · 0 评论 -
模型压缩相关技术概念澄清(量化/剪枝/知识蒸馏)
知识蒸馏(Knowledge Distillation,简记为 KD)是一种经典的模型压缩方法,核心思想是通过引导轻量化的学生模型“模仿”性能更好、结构更复杂的教师模型(或多模型的 ensemble),在不改变学生模型结构的情况下提高其性能。像知识渊博的老师向传授学生知识;更像老师和学生共同学习;更像学生自己学习知识。日常学习总结。原创 2024-11-12 19:32:44 · 1576 阅读 · 0 评论 -
最强端侧模型 MiniCPM-V本地训练教程(GPU/NPU)
最强端侧多模态大模型MiniCPM-V本地训练保姆教程原创 2024-10-23 21:48:37 · 2043 阅读 · 0 评论 -
Tensorboard画图工具进行loss曲线对比
使用tensorboard可视化工具比对模型loss原创 2024-10-23 21:05:46 · 614 阅读 · 0 评论 -
FLUX.1-dev模型本地训练&推理教程(GPU/NPU)
Flux.1-dev多模态模型本地训练&推理(GPU&NPU环境)保姆教程原创 2024-10-21 21:53:51 · 6609 阅读 · 0 评论 -
PyTorch精度工具使用教程
同一模型,从CPU或GPU移植到NPU中存在精度下降问题,对比NPU芯片中的API计算数值与CPU或GPU芯片中的API计算数值,进行问题定位原创 2024-10-21 11:21:03 · 1423 阅读 · 0 评论 -
浅谈Agent智能体
Agent智能体无疑是24年最为火爆的话题之一,那么什么是Agent智能体?有什么作用?为什么需要Agent智能体?原创 2024-09-27 14:23:04 · 316 阅读 · 0 评论 -
浅谈Continue Pretraining(增量预训练)
浅谈Continue Pretraining基本概念/产生原因/逻辑本质/训练方式/使用场景等原创 2024-09-25 13:47:09 · 846 阅读 · 0 评论 -
浅谈提示工程之In-context learning技术
提示词工程之In-context learning技术原创 2024-09-24 15:00:32 · 281 阅读 · 0 评论 -
昇腾大模型性能分析思路
我们根据性能问题的场景,按照单机和集群场景进行分类,再明确性能问题属于哪一类,明确好性能问题背景之后,才方便进行下一步问题的定位;在明确问题背景后,参考,选择对应的性能工具,采集性能数据并拆解性能,找到需要提升性能的模块;在明确性能瓶颈模块后,将问题细化定位到下发、计算和通信等模块,并通过本文目录搜索到对应章节找到对应优化算法。原创 2024-09-04 19:17:33 · 1942 阅读 · 0 评论 -
LLaMA-Factory仓基础功能架构及NPU/GPU环境实战演练
LLaMA-Factory是一个开源的大规模语言模型微调框架,设计用于简化大模型的训练过程。它提供了一个统一的平台,支持多种大模型的微调,包括LLaMA、BLOOM、Mistral等,旨在帮助用户快速适应和调整这些模型以适应特定的应用场景。LLaMA-Factory通过提供一套完整的工具和接口,使用户能够轻松地对预训练的模型进行定制化的训练和调整,包括(增量)预训练、指令监督微调、奖励模型训练、PPO训练、DPO训练和ORPO训练等多种训练方法。原创 2024-09-04 15:31:25 · 2508 阅读 · 0 评论 -
浅谈FlashAttention优化原理
背景:在Transformer 结构中,自注意力机制的时间和存储复杂度与序列的长度呈平方的关系,因此占用了大量的计算设备内存和并消耗大量计算资源。如何优化自注意力机制的是大语言模型需要面临的重要问题。原创 2024-08-28 17:06:56 · 1591 阅读 · 0 评论 -
ubuntu系统GPU从0开始构建大模型训练环境
liunx系统基于CUDA生态从0开始构建大模型训练环境;ubuntu+CUDA+pytorch+ChatGLM原创 2024-08-28 14:28:44 · 2025 阅读 · 0 评论 -
DeepSpeed基础及内存优化特性
DeepSpeed是一个由Microsoft 公司开发的开源深度学习优化库,旨在提高大规模模型训练的效率和可扩展性,使研究人员和工程师能够更快地迭代和探索新的深度学习模型和算法。它采用了多种技术手段来加速训练,包括等。此外,DeepSpeed 还提供了一些辅助工具,例如,以帮助开发者更好地管理和优化大规模深度学习训练任务。原创 2024-08-04 23:39:30 · 1908 阅读 · 0 评论 -
什么是人工智能领域的“下游任务”
这些大型预训练模型通常是在大量无标注或弱标注的数据上通过自监督学习(self-supervised learning)的方式预先训练得到的,目的是捕获语言或数据中的通用表示(representations)。此外,预训练模型还允许研究人员和开发者利用有限的标注数据来训练模型,降低了对大规模标注数据的依赖。这些任务通常需要利用预训练模型学到的通用表示,通过微调(fine-tuning)或特征提取(feature extraction)的方式,来适应特定的应用场景。原创 2024-08-04 23:31:57 · 775 阅读 · 0 评论 -
强化学习和有监督学习的区别
随着ChatGPT、Claude 等通用对话模型的成功,强化学习在自然语言处理领域获得了越来越多的注意力。在深度学习中,有监督学习和强化学习不同,可以用旅行方式进行更直观的对比,和可以看做,每种旅行都具备着自己独特的风景、规则和探索方式。原创 2024-07-23 17:11:09 · 558 阅读 · 0 评论 -
分布式训练并行策略
大模型分布式训练并行策略介绍原创 2024-07-23 10:00:56 · 1867 阅读 · 0 评论 -
浅谈全量微调和PEFT高效微调(LoRA)
是指在预训练的大型模型基础上调整所有层和参数,使其适应特定任务的过程。这一过程使用较小的学习率和特定任务的数据进行,可以充分利用预训练模型的通用特征。原创 2024-07-15 21:27:47 · 1058 阅读 · 0 评论 -
什么是Base模型?什么是chat模型?什么是instruct?什么是4Bit?
常常在开源模型仓看到大模型库中有`base`、`chat`、`instruct`和`4bit`等模型,作为小白来说经常搞不明白需要下载哪一个,今天就带大家简单了解一下原创 2024-07-15 20:12:59 · 16172 阅读 · 3 评论 -
浅谈RLHF---人类反馈强化学习
通俗理解什么是RLHF原创 2024-07-14 22:46:18 · 881 阅读 · 0 评论 -
07浅谈大语言模型可调节参数tempreture
浅谈大语言模型输出随机性参数temperature原创 2024-07-07 15:42:12 · 1752 阅读 · 0 评论 -
06浅谈大语言模型可调节参数TopP和TopK
浅谈大预言模型本文生成随机性控制超参之top_K和top_P原创 2024-07-07 02:17:00 · 3141 阅读 · 0 评论 -
02浅谈大模型文本生成的背后逻辑
浅谈大预言模型文本生成逻辑原创 2024-07-06 14:56:57 · 415 阅读 · 0 评论 -
AI算法/模型/框架/模型库...都是什含义区别和联系?
算法(Algorithm):算法是解决某一特定问题的步骤或规则集合。在AI/ML领域中,算法是用于训练模型、优化参数和执行推理的数学规则和计算方法。算法是模型训练的核心,通过不断优化模型参数以最小化误差或最大化性能。原创 2024-07-06 01:47:46 · 3354 阅读 · 0 评论 -
03浅谈提示工程、RAG和微调
通俗理解提示工程/RAG及微调原创 2024-07-05 00:59:17 · 813 阅读 · 0 评论 -
04通俗理解自注意力机制(self-attention)
通俗易懂理解自注意力机制原创 2024-07-04 00:30:38 · 639 阅读 · 0 评论 -
01通俗理解大模型预训练和微调
但是通用大模型在某些方面的垂直能力可能还不具备,因此需要用到一些领域的数据或私有化数据对大模型进行改良,这个过程叫做微调。通过海量数据数据,训练一个通用大模型,此时大模型具备很多能力。简单理解大模型预训练和微调的过程。原创 2024-07-03 00:59:35 · 406 阅读 · 0 评论 -
大模型基础
AI大模型基础名词概念总结原创 2024-07-03 00:55:34 · 1256 阅读 · 0 评论