
大模型
文章平均质量分 62
一个研究技术、玄学、金融的干过码农的人
Share in creating the best world
展开
-
大模型使用-应用
大模型应用简介原创 2025-01-23 17:33:33 · 457 阅读 · 0 评论 -
大模型评测与应用-基础评测、高级评测、综合评测
一、能力评测汇总二、基础能力评测其他知识点1、 基础能力评测三个维度语言生成能力知识利用能力复杂推理能力2、语言生成能力评测主要问题不可靠的文本评估自动评估存在不全面问题人工评估存在可靠性问题特定专业领域生成能力偏弱使用特定领域训练大模型会导致模型在其他领域性能下降3、知识利用能力评测知识利用任务类型闭卷问答(基于模型自身知识)开卷问答(基于自身以及外部知识)知识补全存在问题幻象:大模型生成内容与提示内容关联度差,通过微调对齐可以原创 2025-01-16 17:42:35 · 259 阅读 · 0 评论 -
评测与使用-评测-评测指标与评测方法
多样化任务:语言建模、文本分类、条件文本生成、执行类任务、偏好排序类任务。评测方式:多样化任务来测试模型能力。原创 2025-01-14 17:09:44 · 359 阅读 · 0 评论 -
大模型使用-规划与智能体-基于大模型的规划
智能体存在目的:解决更复杂问题,实现AGI智能体特点:通过感知环境、规划解决方案、执行相应动作。原创 2025-01-10 14:56:26 · 188 阅读 · 0 评论 -
大模型使用-规划与智能体-基于大模型的智能体
目的:提升大模型在各类复杂任务上的推理表现概念:融合中间的推理步骤来指导大模型的推理过程形态:上下文学习的一种拓展本节内容简介思维链提示基本结构思维链增强策略思维链能力来源思维链提示对模型推理的影响。原创 2024-12-23 09:38:33 · 429 阅读 · 0 评论 -
大模型使用-提示学习-上下文学习
提示内容中包含问答示例(或者思维链)及问题。原创 2024-12-10 11:10:21 · 974 阅读 · 0 评论 -
大模型使用-提示学习-基础提示
上下文学习:ICL(In-context Learning)任务描述与问答示例以自然语言形式加入到提示中思维链提示:CoT(Chain-of-Thought),是一种增强技术,将思维推理过程加入到提示中,可能增强复杂任务的解决效果大模型不太常用。原创 2024-12-04 10:08:46 · 614 阅读 · 0 评论 -
大模型使用-解码与部署-模型压缩方法
模型蒸馏模型剪枝概念:将复杂模型(又称教师模型)包含的知识迁移到简单模型(又称学生模型)中,从而实现模型压缩蒸馏损失函数:用于模型蒸馏,蒸馏损失函数和分类损失函数(又称交叉熵损失函数)常一起用于训练学生模型核心思想:引入额外的损失函数(蒸馏损失函数、分类损失函数),训练学生模型的输出尽可能接近教师模型输出。原创 2024-12-03 18:04:02 · 190 阅读 · 0 评论 -
大模型使用-解码与部署-低资源部署策略
低资源部署策略对应的具体策略是:模型量化作用:降低显存占用,从而在有限资源情况下使用大模型量化概念:从浮点数映射到整数的过程常用量化方式:8比特整数量化,即INT8量化量化数据类型权重量化(模型参数量化)激活值量化量化过程:将浮点数四舍五入或截断等近似操作大模型量化方法:量化感知训练:需要更新权重完成模型量化训练后量化:无需更新模型权重。原创 2024-12-02 17:31:31 · 399 阅读 · 0 评论 -
大模型-大模型使用-解码加速
自回归算法的序列化生成特点,导致解码算法效率低,加速即提升解码效率llama.cpp:跨平台能力好,支持多种量化精度,从1.5比特到8比特不等,均能显著降低显存消耗vLLM:支持多种解码策略,比如PagedAttention、批次管理优化等DeepSpeed-MII:支持多种解码策略,批次管理优化、张量并行,并将全量解码与增量解码有机融合FlexFlow:优化了推测解码算法,设计了树形注意力机制,提升了计算并行度。原创 2024-11-25 18:39:37 · 957 阅读 · 0 评论 -
大模型-大模型使用-解码
自回归架构中,模型针对输入内容逐个单词生成输出内容的文本,大模型生成过程本质是一个概率采样过程,需要合适解码策略来生成合适输出内容改进点:减少具有极低概率词汇对于生成结果的影响改进方案:温度采样Top-K采样Top-P采样对比解码实际一般是多种解码方式公用。原创 2024-11-25 09:42:33 · 331 阅读 · 0 评论 -
大模型-微调与对齐-非强化学习的对齐方法
需要同时维护更新多个模型,资源占用多,执行过程复杂近端策略优化算法在优化过程中稳定性较差,对超参数取值较为敏感,增加了训练的难度和不确定性。原创 2024-11-21 19:09:37 · 567 阅读 · 0 评论 -
大模型-微调与对齐-RLHF
全称:基于人类反馈的强化学习目的:实现人类对齐过程:利用收集到的人类反馈数据指导大模型微调奖励模型概念:基于语言模型设计,模仿人类标注员对待对齐模型生成的内容进行质量评分,实现对人类偏好分数的预测奖励模型作用:替代人类在RLHF训练过程中试试提供反馈训练数据:人类偏好数据重要性:RLHF中的核心算法。原创 2024-11-12 19:19:15 · 822 阅读 · 0 评论 -
大模型-微调与对齐-人类对齐背景与标准
确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致。原创 2024-11-07 17:00:04 · 289 阅读 · 0 评论 -
大模型-微调与对齐-参数高效的模型微调
目的:由于大模型参数量大,全参数微调资源开销大,使用参数高效微调(又称轻量化微调)的方式,在保证微调效果的基础上,来降低微调过程资源消耗知识框架低秩适配微调方法(LoRA)LoRALoRA变种其他高效微调方法(使用较少)适配器微调前缀微调提示微调大模型微调用的少,多用在预训练语言模型微调阶段。原创 2024-10-25 16:58:54 · 358 阅读 · 0 评论 -
大模型-微调与对齐-指令微调的训练策略
与与训练阶段类似,设置与数据组织形式类似。原创 2024-10-23 20:37:42 · 378 阅读 · 0 评论 -
大模型-微调与对齐-指令微调-指令数据构建
指令微调又称监督微调、多任务提示训练,即使用自然语言方式对预训练模型进行参数微调为了减轻人工标注与数据收集的负担,提出的一种半自动化数据合成的方法。指令的质量比数量重要指令微调时应优先使用人工标注的多样性指令数据。原创 2024-10-22 18:37:19 · 1083 阅读 · 0 评论 -
大模型-模型预训练-训练时间预估&训练显存预估
组成部分模型参数模型梯度优化器等数据存储格式16位、2字节浮点数模型参数模型梯度32位、4字节浮点数模型参数动量参数动量二阶矩阵参数显存存储内容:前向传播需要保留每层的激活值(中间状态),来用于后续反向传播中计算梯度并更新模型参数。原创 2024-10-21 14:34:33 · 977 阅读 · 0 评论 -
大模型-模型预训练-训练运算量评估
浮点数的加减乘除运算浮点数的指数函数运算对数函数运算三角函数运算。原创 2024-10-11 15:21:12 · 566 阅读 · 0 评论 -
大模型-模型预训练-模型参数量计算
解码器的每一层都包含一个多头自注意力层,查询、键、值三个组成变换矩阵,1个包含H²个参数,共3H²个参数,同事还需要1个额外的线性变换来将多头自注意力机制的输出拼接成最终的输出,有需要H²个参数,总共需要4LH²个参数。由三个线性变换组成,中间有一个非线性激活函数,前两个线性变换将输入从H维映射到H´维度,需要2HH´个参数,最后一个线性变换将输出从H´维映射回H维,需要HH´个参数,总共需要3HH´个参数。词表大小为V,每个单次映射到一个H维的向量,且输入嵌入层只有一层,因此有VH个参数。原创 2024-09-27 16:53:49 · 368 阅读 · 0 评论 -
大模型-模型预训练-可拓展的训练技术
提高训练效率由DeepSpeed提出,用于解决数据并行中的模型冗余问题,优化掉不参与训练的部分,提高训练效率,每个GPU只保留部分,需要时再读取,降低显存冗余度。原创 2024-09-26 16:27:28 · 344 阅读 · 0 评论 -
大模型-模型预训练-训练过程优化配置
提升训练过程稳定性、效率、效果等。原创 2024-09-25 19:48:50 · 434 阅读 · 0 评论 -
大模型-模型预训练-预训练任务
设计合适的自监督训练任务,使得模型能够从海量五标注数据中学习到广泛的语义知识与世界知识。原创 2024-09-23 17:48:57 · 381 阅读 · 0 评论 -
大模型-模型架构-新型模型架构
基于参数化状态空间模型进行设计。自注意力机制的计算效率问题。原创 2024-09-19 18:57:54 · 320 阅读 · 0 评论 -
大模型-模型架构-长上下文模型
1B长文本数据量+百部训练=7B或13B的LLaMA,上下文窗口拓展到100K。采用受限的注意力机制来调整原始的上下文窗口。基于RoPE进行改进。原创 2024-09-19 18:24:18 · 534 阅读 · 0 评论 -
大模型-模型架构-主流架构
特点编码器端使用双向自注意力机制对输入信息进行编码处理,在解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式进行生成当前使用较少。原创 2024-09-19 16:09:18 · 482 阅读 · 0 评论 -
大模型-模型架构-详细配置
归一化* 注意力机制* 激活函数* 位置编码现有大模型中,Post-Norm很少被单独使用,通常与其他策略相结合使用,例如GLM-130B是Post-Norm与Deep-Norm一起使用。原创 2024-09-13 19:39:23 · 1226 阅读 · 0 评论 -
大模型-模型架构-transformer模型介绍
当前主流大模型都是基于transformer进行设计的transformer模型是有多层多头自注意力模块堆叠而成的神经网络模型transformer模型由解码器与编码器构成,二者可独立使用,例如BERT是基于编码器架构的模型,GPT是基于解码器架构的模型与早期模型相比,大模型使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对transformer本身架构和配置改变不大编码器与解码器都有生成内容的能力输出数据…(与前面相同,多层叠加)原创 2024-09-11 10:47:31 · 614 阅读 · 0 评论 -
大模型预训练-数据准备
名词释义预训练:大模型训练的第一个阶段数据集污染:预训练数据中包含测试数据中的部分或全部数据来源通用数据网页书籍专用数据多语文本科学论文代码数据预处理质量过滤基于启发式规则规则建议基于语种过滤(过滤不支持的语种数据)基于简单统计指标过滤(针对论坛数据,过滤掉任何点赞数少于 3 的用户评论)基于关键词过滤(针对网页数据,过滤掉 HTML 标签)优缺点优点:清晰效率高缺点:质量差基于分类器规则实际方式:使用一个训练好的文本分类原创 2024-07-09 20:16:40 · 594 阅读 · 0 评论 -
大模型基础
大模型与小模型共同使用相同的神经网络模型结构与预训练方法,大模型展现出来的各种能力的指数级增长,其最大的原因就是因为参数规模拓展导致的,所以要探索如何做好规模拓展。原创 2024-07-03 21:18:12 · 514 阅读 · 0 评论 -
大模型-大模型答疑
1、参考文章。原创 2024-05-30 18:50:57 · 167 阅读 · 0 评论 -
大模型-badcase处理
1、参考文章:https://hub.baai.ac.cn/view/32791。原创 2024-05-29 18:15:01 · 548 阅读 · 0 评论 -
大模型-大模型评测
1、参考文章:https://www.linkresearcher.com/information/f4a3b0e0-9d14-45cc-9f8a-acac0ce6addd。原创 2024-05-29 09:57:18 · 241 阅读 · 0 评论