自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sgliquangang的专栏

本领专练

  • 博客(412)
  • 收藏
  • 关注

原创 大模型使用-应用

大模型应用简介

2025-01-23 17:33:33 446

原创 大模型评测与应用-基础评测、高级评测、综合评测

一、能力评测汇总二、基础能力评测其他知识点1、 基础能力评测三个维度语言生成能力知识利用能力复杂推理能力2、语言生成能力评测主要问题不可靠的文本评估自动评估存在不全面问题人工评估存在可靠性问题特定专业领域生成能力偏弱使用特定领域训练大模型会导致模型在其他领域性能下降3、知识利用能力评测知识利用任务类型闭卷问答(基于模型自身知识)开卷问答(基于自身以及外部知识)知识补全存在问题幻象:大模型生成内容与提示内容关联度差,通过微调对齐可以

2025-01-16 17:42:35 240

原创 评测与使用-评测-评测指标与评测方法

多样化任务:语言建模、文本分类、条件文本生成、执行类任务、偏好排序类任务。评测方式:多样化任务来测试模型能力。

2025-01-14 17:09:44 350

原创 大模型使用-规划与智能体-基于大模型的规划

智能体存在目的:解决更复杂问题,实现AGI智能体特点:通过感知环境、规划解决方案、执行相应动作。

2025-01-10 14:56:26 173

原创 大模型使用-规划与智能体-基于大模型的智能体

目的:提升大模型在各类复杂任务上的推理表现概念:融合中间的推理步骤来指导大模型的推理过程形态:上下文学习的一种拓展本节内容简介思维链提示基本结构思维链增强策略思维链能力来源思维链提示对模型推理的影响。

2024-12-23 09:38:33 420

原创 大模型使用-提示学习-上下文学习

提示内容中包含问答示例(或者思维链)及问题。

2024-12-10 11:10:21 969

原创 大模型使用-提示学习-基础提示

上下文学习:ICL(In-context Learning)任务描述与问答示例以自然语言形式加入到提示中思维链提示:CoT(Chain-of-Thought),是一种增强技术,将思维推理过程加入到提示中,可能增强复杂任务的解决效果大模型不太常用。

2024-12-04 10:08:46 608

原创 大模型使用-解码与部署-模型压缩方法

模型蒸馏模型剪枝概念:将复杂模型(又称教师模型)包含的知识迁移到简单模型(又称学生模型)中,从而实现模型压缩蒸馏损失函数:用于模型蒸馏,蒸馏损失函数和分类损失函数(又称交叉熵损失函数)常一起用于训练学生模型核心思想:引入额外的损失函数(蒸馏损失函数、分类损失函数),训练学生模型的输出尽可能接近教师模型输出。

2024-12-03 18:04:02 188

原创 大模型使用-解码与部署-低资源部署策略

低资源部署策略对应的具体策略是:模型量化作用:降低显存占用,从而在有限资源情况下使用大模型量化概念:从浮点数映射到整数的过程常用量化方式:8比特整数量化,即INT8量化量化数据类型权重量化(模型参数量化)激活值量化量化过程:将浮点数四舍五入或截断等近似操作大模型量化方法:量化感知训练:需要更新权重完成模型量化训练后量化:无需更新模型权重。

2024-12-02 17:31:31 392

原创 大模型-大模型使用-解码加速

自回归算法的序列化生成特点,导致解码算法效率低,加速即提升解码效率llama.cpp:跨平台能力好,支持多种量化精度,从1.5比特到8比特不等,均能显著降低显存消耗vLLM:支持多种解码策略,比如PagedAttention、批次管理优化等DeepSpeed-MII:支持多种解码策略,批次管理优化、张量并行,并将全量解码与增量解码有机融合FlexFlow:优化了推测解码算法,设计了树形注意力机制,提升了计算并行度。

2024-11-25 18:39:37 940

原创 职场经验-冯唐成事心法-读后感

凡事顺天应人,顺着规律做事情对于结果,谋事在人,成事在天,认真去做,一次不行就两次,如果真的发现路径错了,那就调整策略,如果事情有违天道,那就不要做了。

2024-11-25 14:18:47 410

原创 大模型-大模型使用-解码

自回归架构中,模型针对输入内容逐个单词生成输出内容的文本,大模型生成过程本质是一个概率采样过程,需要合适解码策略来生成合适输出内容改进点:减少具有极低概率词汇对于生成结果的影响改进方案:温度采样Top-K采样Top-P采样对比解码实际一般是多种解码方式公用。

2024-11-25 09:42:33 308

原创 大模型-微调与对齐-非强化学习的对齐方法

需要同时维护更新多个模型,资源占用多,执行过程复杂近端策略优化算法在优化过程中稳定性较差,对超参数取值较为敏感,增加了训练的难度和不确定性。

2024-11-21 19:09:37 546

原创 小米创业之路-读后感

性价比。

2024-11-20 14:54:27 256

原创 倪师学习笔记-天纪-斗数星辰介绍&十年事

提醒:刚愎自用的人容易被人利用三者均为武官星,个性阳刚、自以为是,三星常常汇集在一起南斗-七杀相:目大个性:性急、多疑事业:耗、劳南斗-破军相:目大个性:性急、多疑、孤僻、不重利事业:耗、劳南斗-贪狼入命:主桃花星,高于廉贞星,酒色财气相:魁梧、高大、汗毛多事业:主财。

2024-11-13 19:51:04 1334

原创 大模型-微调与对齐-RLHF

全称:基于人类反馈的强化学习目的:实现人类对齐过程:利用收集到的人类反馈数据指导大模型微调奖励模型概念:基于语言模型设计,模仿人类标注员对待对齐模型生成的内容进行质量评分,实现对人类偏好分数的预测奖励模型作用:替代人类在RLHF训练过程中试试提供反馈训练数据:人类偏好数据重要性:RLHF中的核心算法。

2024-11-12 19:19:15 806

原创 大模型-微调与对齐-人类对齐背景与标准

确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致。

2024-11-07 17:00:04 271

原创 倪师学习笔记-天纪-易经八卦

卦代表事情,爻代表时机,三爻为一卦八卦对应的天相,六十四卦对应人间事。

2024-10-28 18:13:15 790

原创 大模型-微调与对齐-参数高效的模型微调

目的:由于大模型参数量大,全参数微调资源开销大,使用参数高效微调(又称轻量化微调)的方式,在保证微调效果的基础上,来降低微调过程资源消耗知识框架低秩适配微调方法(LoRA)LoRALoRA变种其他高效微调方法(使用较少)适配器微调前缀微调提示微调大模型微调用的少,多用在预训练语言模型微调阶段。

2024-10-25 16:58:54 349

原创 mac-chrome提示您的连接不是私密连接

关闭clash之后就ok打开clash,就会提示您的连接不是私密连接。

2024-10-24 19:02:02 1349

原创 大模型-微调与对齐-指令微调的训练策略

与与训练阶段类似,设置与数据组织形式类似。

2024-10-23 20:37:42 364

原创 大模型-微调与对齐-指令微调-指令数据构建

指令微调又称监督微调、多任务提示训练,即使用自然语言方式对预训练模型进行参数微调为了减轻人工标注与数据收集的负担,提出的一种半自动化数据合成的方法。指令的质量比数量重要指令微调时应优先使用人工标注的多样性指令数据。

2024-10-22 18:37:19 1041

原创 倪师学习笔记-天纪-斗数星辰介绍

南斗天府星太阴星天梁星天相星北斗紫微星天机星太阳星武曲星天同星廉贞星帝星官带星、文武双全阳星贵人星主正财位于官禄宫,官星越大,管越大,紫微星最大财星进入官禄宫,主贪官无左右辅星,主孤单,处于福德宫且无辅星,主孤单一生相脸宽耳长、正面不见耳五官开阔厚重不苟言笑具备解厄制化能力,遇难逢凶化吉,能制所有凶星无解厄制化功能,许多书上说有,实际没有官带星,文官带,教星(公务员、教师等)

2024-10-21 18:28:02 1050

原创 管理、情商、格局-冯唐讲资质通鉴-笔记

能力再强的员工,也不能越级提拔,即便其要离职,也不可越级提拔,仍然要按照公司规章制度进行提拔晋升。通常来说,无为才是最好的方式,大刀阔斧往往损人不利己,要顺势而为,无为不会失去天下,死作才会。2、然后是汇报线,要严格按照汇报线做事情,不要追求效率,最慢的往往是最快的。3、职级很重要,关系到汇报线、待遇等制度。1、首先是管理基础最终要的是制度。

2024-10-21 16:28:20 288

原创 大模型-模型预训练-训练时间预估&训练显存预估

组成部分模型参数模型梯度优化器等数据存储格式16位、2字节浮点数模型参数模型梯度32位、4字节浮点数模型参数动量参数动量二阶矩阵参数显存存储内容:前向传播需要保留每层的激活值(中间状态),来用于后续反向传播中计算梯度并更新模型参数。

2024-10-21 14:34:33 921

原创 倪师学习笔记-天纪-四化星

四化星为主力星,为化科、化权、化禄、化忌放到十二宫里面之后,不需要动,固定位置看与哪颗星关联来算命念影响做法,做法影响命运星性代表专业能力代表名气相的特点手掌上的天柱纹通天。

2024-10-17 10:24:50 764

原创 倪师学习笔记-天纪-易经入门

水->木->火->土->金->水【闭环】突发的、短暂的具有预兆功能的事情。

2024-10-11 19:44:34 798

原创 大模型-模型预训练-训练运算量评估

浮点数的加减乘除运算浮点数的指数函数运算对数函数运算三角函数运算。

2024-10-11 15:21:12 551

原创 倪师学习笔记-天纪-斗数简介

看杀星集中在哪个宫,哪个部位就容易有问题,多个宫有杀星,就是多个部位有问题。十二宫与体内部位对应关系图。十二宫与体内部位对应诗。学习->验证->思考。

2024-10-10 17:57:39 1413

原创 倪师学习笔记-天纪-课程介绍

神与形对应,形是神的实例,神是形的规律总结概括。把握时机,引导事情向期望的方向发展。介绍课程内容,介绍部分概念。

2024-10-08 19:34:11 1079

原创 大模型-模型预训练-模型参数量计算

解码器的每一层都包含一个多头自注意力层,查询、键、值三个组成变换矩阵,1个包含H²个参数,共3H²个参数,同事还需要1个额外的线性变换来将多头自注意力机制的输出拼接成最终的输出,有需要H²个参数,总共需要4LH²个参数。由三个线性变换组成,中间有一个非线性激活函数,前两个线性变换将输入从H维映射到H´维度,需要2HH´个参数,最后一个线性变换将输出从H´维映射回H维,需要HH´个参数,总共需要3HH´个参数。词表大小为V,每个单次映射到一个H维的向量,且输入嵌入层只有一层,因此有VH个参数。

2024-09-27 16:53:49 354

原创 大模型-模型预训练-可拓展的训练技术

提高训练效率由DeepSpeed提出,用于解决数据并行中的模型冗余问题,优化掉不参与训练的部分,提高训练效率,每个GPU只保留部分,需要时再读取,降低显存冗余度。

2024-09-26 16:27:28 339

原创 大模型-模型预训练-训练过程优化配置

提升训练过程稳定性、效率、效果等。

2024-09-25 19:48:50 422

原创 阿米洛键盘usb连接到mac-command失灵

Fn+windows键同时按下,然后两边的windows键都试试,具体没发现严格的一步到位的办法,但是多试几次后,解决了。

2024-09-25 09:35:06 286

原创 大模型-模型预训练-预训练任务

设计合适的自监督训练任务,使得模型能够从海量五标注数据中学习到广泛的语义知识与世界知识。

2024-09-23 17:48:57 373

原创 大模型-模型架构-新型模型架构

基于参数化状态空间模型进行设计。自注意力机制的计算效率问题。

2024-09-19 18:57:54 309

原创 大模型-模型架构-长上下文模型

1B长文本数据量+百部训练=7B或13B的LLaMA,上下文窗口拓展到100K。采用受限的注意力机制来调整原始的上下文窗口。基于RoPE进行改进。

2024-09-19 18:24:18 514

原创 大模型-模型架构-主流架构

特点编码器端使用双向自注意力机制对输入信息进行编码处理,在解码器端则使用了交叉注意力与掩码自注意力机制,进而通过自回归的方式进行生成当前使用较少。

2024-09-19 16:09:18 473

原创 大模型-模型架构-详细配置

归一化* 注意力机制* 激活函数* 位置编码现有大模型中,Post-Norm很少被单独使用,通常与其他策略相结合使用,例如GLM-130B是Post-Norm与Deep-Norm一起使用。

2024-09-13 19:39:23 1197

原创 大模型-模型架构-transformer模型介绍

当前主流大模型都是基于transformer进行设计的transformer模型是有多层多头自注意力模块堆叠而成的神经网络模型transformer模型由解码器与编码器构成,二者可独立使用,例如BERT是基于编码器架构的模型,GPT是基于解码器架构的模型与早期模型相比,大模型使用了更长的向量维度、更深的层数,进而包含了更大规模的模型参数,并主要使用解码器架构,对transformer本身架构和配置改变不大编码器与解码器都有生成内容的能力输出数据…(与前面相同,多层叠加)

2024-09-11 10:47:31 602

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除