大模型系列
文章平均质量分 94
该部分将从大模型的基础概念出发,结合较为经典的书籍、论文,以及培训视频的知识点,记录学习的全过程,实现自我提高的目的。
Whitney_mao
越热爱,越努力,越幸运,越开心
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态大模型——Sora关键技术
本文主要讲述了向量生成图像的原理、限制及训练方法。首先介绍了向量生成图像的基本原理和局限性。此外,通过约束向量和图像token化,实现了向量的非连续化,使得每个向量对应一个具体的图像特征。最后,详细阐述了训练过程中的关键概念、目标和流程,包括训练的必要性、训练目标和流程,以及解决训练过程中问题的方法,如使用神经网络预测像素和逐步学习预测像素的能力。原创 2025-04-02 02:15:44 · 1266 阅读 · 0 评论 -
多模态大模型训练范式演进与前瞻
本文从多模态大模型相关概念出发,并以Flamingo 模型为例,探讨了基于多模态大模型训练的演进与前瞻。新一代训练范式包括统一架构、数据工程革新和动态适应机制,以提升跨模态推理能力和长视频理解。原创 2025-03-27 22:41:30 · 1244 阅读 · 0 评论 -
大模型分布式训练框架——DeepSpeed
本文的主要内容是阐述Deep Speed训练模块在跟进大模型技术中的作用,重点解析了RHF在其中的应用。文中深入探讨了模型训练的关键概念,如显存需求、优化器迭代和混合精度训练。针对大规模模型训练,介绍了模型并行和流水线并行等分布式训练方法,并讨论了如何在资源有限的情况下使用16位精度进行训练。原创 2024-12-04 02:29:59 · 2910 阅读 · 0 评论 -
Meta AI大模型家族LLaMA
本文主要讲述了大模型的训练技巧和模型架构,包括预训练和微调的差异、不同训练方式的效果、数据准备和最佳实践等。此外,还介绍了如何获取和使用大语言模型,包括模型的可训练版本、训练数据、评估方式以及获取模型权重的方法。文中提到了斯坦福大学和其他高校一起开发的LLaMA 模型以及GPT-4等评估模型,并强调了模型安全性评估和避免产生不良内容和偏见的重要性。原创 2024-12-03 02:27:59 · 1991 阅读 · 0 评论 -
混合专家模型技术——MoEs
本文主要阐述了大模型预训练技术中的encoder decoder transformer结构模型进展,特别是专家模型在FFN层的应用和分布式训练中的模型并行方法。文中提到大模型的全语种翻译能力,并强调了数据在模型训练中的重要性。同时,介绍了top-2门控路由等创新训练方法,以及模型在路由方面的改造。最后,本文提到了一些具体的模型实例,展示了当前自然语言处理领域的最新进展和挑战。原创 2024-12-01 23:32:33 · 1469 阅读 · 0 评论 -
大模型训练核心技术RLHF
本文此次的主要内容是使用强化学习训练语言模型的过程,特别是通过人类反馈的强化学习(RLHF)技术来微调大语言模型。本文先介绍了预训练模型的使用,然后重点介绍了RLHF的第二阶段,即将下游任务以特定数据集的形式交给大模型,以及第三阶段,即训练奖励模型。同时,文章还讨论了微调语言模型时使用的DFT方法和奖励模型的重要性,以及PPO在迭代更新参数中的作用。最后,本文提醒用户注意数据准备和奖励模型训练等额外工作的重要性,并强调了SFT过程中奖励模型RM的概念。原创 2024-11-30 22:56:08 · 1576 阅读 · 0 评论 -
02 Agent内部结构解析和实践
本文主要讲述了在LangChain中如何正确给agent增加记忆和共享记忆的方法以及Tool的使用方法。同时,本文也阐述了LCEL的概念以及在Agents中的使用,并利用一个完整的项目案例贯穿全流程。原创 2024-11-29 02:00:59 · 1107 阅读 · 0 评论 -
01 Agent智能体核心与实践
本文主要讲述了AI agent开发的基础知识,包括其定义、机会、基本构成和常见类型,以及agent常用的几种模版。同时,还介绍了agent开发的最佳实践和安全提示,以及相关的开源脚手架和迭代版本。原创 2024-11-27 00:29:36 · 1186 阅读 · 0 评论 -
实战基于LangChain和ChatGLM私有化部署聊天机器人
本文主要阐述了如何使用第二代6B模型进行对话训练,以及如何通过微调来提高大模型的性能。文中提到了在8501端口上启动第二代6B模型,并使用极简模板进行请求。与第一代模型相比,第二代6B模型具有更强的对话能力,并且可以通过微调来适应特定任务。此外,本文还介绍了如何使用ChatGLM-6B模型进行调用,以及如何使用gradio进行环境隔离和客户端创建。最后,文中提到了向量数据库和基于大模型的RAG或chatbot等检索方法。原创 2024-11-25 22:54:40 · 1512 阅读 · 0 评论 -
LangChain基础知识
这篇文档介绍了LangChain大模型应用开发框架的入门知识和核心内容,包括LangChain是什么、为什么需要它、典型使用场景、基础概念与模块化设计等。同时,还详细阐述了该框架的核心模块如标准化的大模型抽象、大模型应用的最佳实践、赋予应用记忆的能力、框架原生的数据处理流等。原创 2024-09-01 04:03:50 · 1949 阅读 · 0 评论 -
大模型高效微调工具 Hugging Face PEFT
本文主要介绍了PEFT库的内容、与Transformers的集成、核心知识点如AutoPeftModels、PeftConfig、PeftType和TaskType,以及LoRA在文本生成和语音识别任务中的实战应用。原创 2024-08-18 03:07:56 · 2872 阅读 · 0 评论 -
实战Transformers模型量化Facebook OPT
本文详细介绍了模型量化的理论和实践,包括量化方法、量化效果、微调过程以及实战操作。通过对比不同模型的量化效果,强调了量化在减少资源开销方面的优势。同时,演示了如何使用transformers库进行GPTQ的量化,并介绍了相关的配置参数。原创 2024-07-26 00:55:09 · 2079 阅读 · 2 评论 -
实战Transformers模型量化
本文主要讲述了模型量化技术在大模型微调中的重要性,包括如何使用transformers库进行模型量化,以及AWQ量化方法,从而强调了模型量化可以降低推理成本,减少计算资源和时间,优化大模型的微调过程。AWQ是一种从大模型中找到重要值的量化方法,可以避免使用数据集进行反向传播和矩阵分解。该方法在两个模型上进行测试,并与BNB的量化方法和原始的十六位浮点数方法进行比较,也鼓励实际操作使用AWQ来量化模型,并比较量化前后的指标差异。原创 2024-07-23 22:17:42 · 3011 阅读 · 0 评论 -
实战Transformers模型微调
本文主要讲述了在分布式、模型加速等应用中,transformers的一些基础训练模块的重要性。同时还介绍了datasets库,这个库可以用来加载数据集,就像加载模型一样。此外,还介绍了data sets库的主要版本,包括一点一和二点零版本。文章还提到了trainer的训练参数和matrix数据集,以及使用loss function来评估模型的方法。为了自动化这个过程,可以从数据集中随机抽取样本,并从预训练的模型中加载对应的tokenizer进行处理。原创 2024-07-21 03:54:26 · 1298 阅读 · 0 评论 -
大模型开发工具库
Hugging Face Transformers是一个 Python库,允许用户下载和训练机器学习(ML)模型。它最初被创建用于开发语言模型,现在功能已扩展到包括多模态、计算机视觉和音频处理等其他用途的模型。原创 2024-05-03 00:19:04 · 1305 阅读 · 3 评论 -
大模型微调技术揭秘——LoRA
受此启发,微软提出了低秩适配(LoRA)方法,设计了特定结构,在涉及矩阵乘法的模块中引入两个低秩矩阵A和B,以模拟完全微调过程。这相当于只对语言模型中起关键作用的低秩本质维度进行更新。原创 2024-04-16 01:46:44 · 3778 阅读 · 0 评论 -
大模型微调技术——PEFT
本文主要讲述了大模型的训练和微调成本较高,以及如何通过Prefix Tuning降低大模型微调成本的问题。此外,文中也涉及到大模型的训练难度和微调的复杂性,以及Prefix Tuning的原理和优势。同时,文中还介绍了如何使用Prefix Tuning进行模型微调的具体步骤和注意事项,以及Prefix Tuning在自然语言处理领域的应用前景。原创 2024-04-08 00:32:40 · 3529 阅读 · 0 评论 -
大模型演进
大模型演进及其核心原理推理原创 2024-04-02 02:52:06 · 1651 阅读 · 2 评论 -
AI大模型基础
本文主要讲述人工智能(AI)的发展历程,从早起的符号主义和专家系统,到互联网兴起后的数据驱动,再到机器学习、深度学习和大模型的发展。通过本次学习,可以了解深度学习的重要性和价值,以及大模型如何输入和输出大数据。此外,本文还介绍了大模型微调的重要性和应用场景,以及大语言模型预训练的概念。原创 2024-03-24 04:05:47 · 1677 阅读 · 0 评论
分享