
大模型
文章平均质量分 64
谁怕平生太急
110010
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Qwen2.5-Coder技术报告阅读
这项工作推出了Qwen2.5-Coder,这是Qwen系列的最新成员。基于顶级开源LLM(大型语言模型)Qwen2.5,Qwen2.5-Coder通过对Qwen2.5-1.5B和Qwen2.5-7B在大规模数据集上的广泛预训练和后训练进行开发。为了保证预训练数据的质量,我们通过收集公共代码数据,从网络文本中提取高质量的代码相关内容,并使用高级分类器过滤低质量数据,汇编了一个数据集(20 Technical Report表示这一步骤)。此外,我们构建了一个精心设计的指令微调数据集。原创 2024-11-15 17:19:04 · 910 阅读 · 0 评论 -
最近看到还不错的blog
一、统一嵌入解码器架构图像编码器:通常是预训练的视觉变换器,如CLIP、OpenCLIP图像编码器的过程:图像划分为小块、经过线性投影层、再接上Transformer encoder。上面的线性投影层:目的是将被展平为向量的图像块 投影到 与 Transformer 编码器 兼容的 embedding尺寸。图像编码器之后的Projector:投影器通常是一个线性投影层,目的是将图像编码器的输出投影到 与text token embedding的维度相匹配的维度。也可以叫做 适配器、连接器。原创 2024-11-12 17:58:35 · 319 阅读 · 0 评论 -
面试问题记录1
文本大模型推理加速的技术方案种类繁多,不同技术针对的瓶颈不同。原创 2024-10-19 11:22:57 · 1183 阅读 · 0 评论 -
qwen2vl 训练记录
image_grid_thw’: tensor([[ 1, 98, 146]], device=‘cuda:0’)}} 三个维度的大小 时间、高度、宽度 grid_t, grid_h, grid_w。4、qwen2vl lora训练时,可以设置 freeze_vision_tower为false、增加的参数量大概在 0.06%(图片限制在 512token时)/ 0.4%(图片在3300token时)因为 图片和视频帧的同步、 乘以2、所以高度(即宽度) = 49 * 2 = 98。原创 2024-10-16 14:41:41 · 1563 阅读 · 0 评论 -
llava1.5论文阅读
通过视觉指令微调增强的基线方法论文摘要: 我们发现,LLaVA中的全连接视觉语言连接器非常强大且数据效率高。原创 2024-10-11 15:36:30 · 1136 阅读 · 1 评论 -
多模态模型中常用的图像和语言表示之间的连接方案
以下是一些在多模态模型中常用的图像和语言表示之间的连接方案:原创 2024-10-11 15:11:01 · 503 阅读 · 0 评论 -
论文阅读 BLIP-2
使用冻结的图像编码器和大型语言模型进行语言-图像预训练的BLIP-2 通过一个轻量级的查询变换器弥合了模态之间的差距。第一阶段通过冻结的图像编码器视觉-语言表示学习。第二阶段通过一个冻结的语言模型从视觉到语言的生成学习。原创 2024-10-11 15:04:21 · 1358 阅读 · 1 评论 -
llava论文阅读
我们首次尝试仅使用语言模型GPT-4来生成多模态的语言-图像指令跟随数据。通过在生成的数据上进行指令微调,我们引入了LLaVA(Large Language and Vision Assistant):一个端到端训练的大型多模态模型,它将视觉编码器与LLM(Large Language Model)连接起来,用于通用的视觉和语言理解。构建了两个评价基准。llava的效果:在一个合成的多模态指令遵循数据集上相对于GPT-4获得了85.1%的相对分数。原创 2024-10-11 11:12:03 · 954 阅读 · 1 评论 -
Qwen2-VL论文阅读笔记
Naive Dynamic Resolution - 用2D-RoPE取代绝对位置编码 推理阶段的序列长度是可控的 【推理阶段的不定长的vision tokens是怎么处理的?遵从qwenvl的三阶段:用image-text单独训练ViT、解冻所有参数训练理解能力、最后冻住ViT只训练LLM遵循格式化数据。预训练阶段目的: 学习 图文关系、通过ocr的图像文本上下文识别、图片分类任务。平衡长视频处理的计算需求与整体训练效率,我们动态调整每个视频帧的分辨率,限制每个标记的总数 视频到16384。原创 2024-09-25 11:41:29 · 1627 阅读 · 0 评论 -
最简单的Lora训练代码
【代码】最简单的Lora训练代码。原创 2024-07-19 14:54:08 · 949 阅读 · 0 评论 -
最简单的网络
【代码】最简单的网络。转载 2024-07-19 13:58:54 · 184 阅读 · 1 评论 -
PEFT的几种方式
P-Tuning v2在原有的P-Tuning基础上进行改进,提供了一种称作“深层prompt”的方式,该方式将prompt嵌入到语言模型的每一层中去,而不只是输入层。这两种方法都属于参数效率型微调方法的一部分,即它们通过仅调整相对较少的额外参数来实现对预训练模型的优化,而非直接微调模型的所有参数。在应用上,P-Tuning v2理论上具有在微调时进行更深层次、更灵活和更精细调节模型行为的能力,并且可能提供比原始的P-Tuning更好的任务适应性。将prompt转换为可学习的Embedding层。原创 2024-07-18 11:17:23 · 455 阅读 · 0 评论 -
LLM基础
2020年年中 GPT3.0:LLM往何处去的发展理念● 单从技术角度看,差距主要来自于对LLM的认知以及未来应往何处去的发展理念的不同。选手:OpenAI、Google、MetaLLM的技术脉络、ChatGPT带来的AI研究新范式。LLM从海量数据学到什么、如何存取、规模增大的影响、In Context Learning、Instruct、推理能力、思维链CoT是什么。原创 2024-07-17 15:28:50 · 480 阅读 · 0 评论 -
Qwen2来了
级别二:为了减少 因关键词重叠度不足导致的 上下文错过 的问题,用LLM来判断块和query的相关度,用相关块的相关句子 而不是 query当中的 关键词来检索 最相关的块。级别一:先用LLM来对user query进行“信息”和“指令”的抽取,然后用LLM对信息进行翻译,多语言的角度用BM25来提取相关块…「大量精力:如何扩展多语言预训练 和指令微调数据的规模并提升质量,提升模型的多语言能力」级别三:另外训练一个用于规划的LLM,用级别二的llm作为tool,实现逐级推理。3、多个评测基准上的领先表现。原创 2024-06-07 16:48:17 · 781 阅读 · 0 评论 -
Prompt示例
Prompt作用:逐步总结所提供的对话内容,添加到先前的摘要中,返回新的摘要要点总结:(1)用空行来划分(2)类似kv的表述:Current summary、New lines of conversation、New summary(3)关键词:EXAMPLE、END OF EXAMPLEEXAMPLE{summary}原创 2024-06-05 17:23:57 · 1098 阅读 · 0 评论 -
多模态模型基础
ViT的位置编码:https://blog.youkuaiyun.com/qq_44166630/article/details/127429697QwenVL发布:https://qwenlm.github.io/zh/blog/qwen-vl/原创 2024-06-04 21:21:37 · 2150 阅读 · 1 评论 -
OFA one-for-all 通用多模态预训练模型
使用简单的序列到序列的学习框架 统一模态 (跨模态、视觉、语言等模态)和任务(如图片生成、视觉定位、图片描述、图片分类、文本生成等)原创 2024-05-30 19:43:08 · 353 阅读 · 0 评论 -
闲聊大模型推理能力
后的泛化:这些模型通过在海量数据上的训练,学会了识别语言中的模式和关联。当面对一个问题时,它们能够利用这些模式和关联,从其训练数据中“回忆”起相关的信息,并应用这些信息来生成回答。在训练过程时,模型通过分析这些结构,学习了如何将因果关系映射到内部的表示系统里。(3)对模型进行RLHF训练:不断强化LLM的推理策略。(2)在prompt当中提供了与训练数据相似的。(1)LLM训练用的海量文本数据集中包含了。(2)RAG(引入外部数据库作为上下文)(1)垂类训练数据集的多样性增强。,使得LLM存在迁移的可能。原创 2024-05-22 20:33:21 · 775 阅读 · 0 评论 -
大模型之Flash attention V1
Fast with IO-Awareness:计算快。通过来加快 整体运算速度,这种方法 被称为 O-Awareness。具体是通过 分块计算 tiling 和 核函数融合 kernel fusion 来降低对显存的访问。Memory Efficient: 节省显存。通过 trick 2 使得从 O(N方)降至 O(N)。做到了完全等同于 标准attention的实现方式。问题归纳为:(1)为什么能降低对显存HBM的访问次数:充分利用SRAM。原创 2024-05-22 19:25:53 · 890 阅读 · 0 评论 -
大模型之MoE
在做完capacity + random routing后,我们最终确认了每个token要发去的top2expert和其对应的权重,通过加权计算的方式,确认Moe-Layer最终的输出结果。: 为每个expert设置capacity(expert buffer),限制它能处理的最大token数量,多出来的token算为溢出,在top2Expert都溢出的情况下,该token会被直接发去下一层attention。推理速度:相当于占用更多的GPU显存,但是因为只使用其中1/4甚至更低的参数,推理时速度更快。原创 2024-05-17 14:36:06 · 1322 阅读 · 0 评论 -
大模型之SFT提效
2、减少训练steps:训练语料中多条 concat 为一条,使不同 batch 的语料 token 数目基本一致,从而降低 padding 对计算效率的影响。但是这两者精度上差异不一样,BF16 可表示的整数范围更广泛,但是尾数精度较小;6、多轮对话拆成多条训练数据,对每个response都进行predict和loss计算。1、数据择优:数据去重降低重复数据带来的计算量:基于正则匹配,minhash 等算法。与32位相比,采用BF16/FP16吞吐量可以翻倍,内存需求可以减半。原创 2024-05-17 14:01:14 · 514 阅读 · 0 评论 -
大模型之CoT和ToT
将 ToT 框架的主要概念概括成了一段简短的提示词,指导 LLM 在一次提示中对中间思维做出评估。我的看法:如果模型足够强大,CoT和ToT的作用将大大减少。一句话总结:CoT和ToT都是Prompt技巧中的一种。,引导语言模型探索 把思维作为中间步骤 来解决通用问题。Chain-of-Thought 思维链。:Tree of Thoughts 思维树。ToT 基于思维链提示进行了。原创 2024-05-17 13:55:12 · 1611 阅读 · 0 评论 -
大模型之DPO
这个loss同样用 Reference模型来计算KL散度,以免训练出来的模型偏离 SFT后的模型太远。研究引入身份偏好优化(IPO),它为 DPO 损失添加了正则化项,使人们能够训练模型收敛,而无需提前停止等技巧。实验的感觉是不如PPO、可能的原因是没有很好的调参,也可能是因为PPO pipeline环节引入了较多的人工经验。这么设计、意味着训练样本构造batch时,要将一个对话的样本放在一个batch里面,可以最大化训练效果。1、用排序来替代打分,降低标准的成本,获得更多的训练数据。原创 2024-05-17 10:44:20 · 2774 阅读 · 1 评论 -
大模型之RLHF
loss含义是 对上文St而言,如果token At产生的预估收益越高,那就增大它出现的概率,否则降低它的概率。这一步设计的目的是 要让 Rt 可计算,其中一种设计是 除了最后的T时刻, 其余时刻的即时奖励,我们就用“Actor是否遵循了Ref的约束”来进行评价。3、在t时刻,At对应的即时收益为Rt,总收益是Vt(Vt=即时收益+未来收益),也可以理解成“对人类喜好的衡量”,此时模型的状态有St变为St+1。v4版本:对Adv_t进行改造,使其不仅考虑了当前时刻的优势,还考虑了未来的优势。原创 2024-05-16 17:02:25 · 1605 阅读 · 0 评论 -
大模型PEFT之LoRA
训练:固定预训练权重W,只训练低秩矩阵A和B,保存时只需保存A和B。LoRA实验:通过实验验证了LoRA低秩矩阵的有效性,包括不同r值下的微调效果、不同低秩空间的相交程度、不同层的r值设置,以及预训练权重与微调权重的关系。Adapter Tuning:在模型中添加额外知识模块(Adapter),其余参数保持冻结,降低训练代价,但会增加模型层数和训练推理速度。(B 是降维矩阵,A是升维矩阵,其中 A 正常随机数初始化,B 全 0 初始化,从而保证训练初期的稳定性)一般 α设置为32,r设置为 4。原创 2024-05-16 14:36:32 · 675 阅读 · 0 评论 -
prompt记录_自动文案
content:这部纪录片特别洗眼睛、无限多的美景令人对长江上游无限憧憬,想实地去看看。需求描述:给大模型一些短语、句子,它能够以我的笔记风格自动写作。step1:利用具有联网搜索能力的LLM,获得一些笔记素材,比如。step2:增加自己的观后感作为语言风格。step4:最后得到的文案。step3:写prompt。原创 2024-05-16 11:32:32 · 421 阅读 · 0 评论 -
Qwen 开源标杆
1、Qwen1.5 110B:相同的Transformer解码器架构、GQA、支持32K tokens的上下文长度、支持多语言。性能和LLama-3-70B媲美。不算量化、已经开源的Qwen1.5 版本有9个: 0.5B、1.8B、4B、7B、14B、32B、72B、110B、MoE-A2.7B。闭源已经发展到 Qwen-Max-0428、网页端从2.1升级到2.5。原创 2024-05-15 20:20:36 · 743 阅读 · 0 评论 -
Megatron-lm、DeepSpeed
3、Megatron-LM 综合应用了数据并行(Data Parallelism),张量并行(Tensor Parallelism)和流水线并行(Pipeline Parallelism)。ZeRO将模型训练阶段,每张卡中显存内容分为两类:模型(参数、梯度、Adam状态)、剩余(激活值、临时缓冲区、显存碎片)。2、并行的方式:数据并行、模型并行(张量并行、流水线并行)。1、为了训练更多的数据、更大的模型,提出了并行训练框架。原创 2024-05-15 17:08:07 · 940 阅读 · 0 评论