自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(139)
  • 收藏
  • 关注

原创 LLM(大语言模型)部署加速方法——PagedAttention

与传统的注意力算法不同,允许在不连续的内存空间中存储连续的key和value。四、PagedAttention如何存储 连续的key和value?PagedAttention 是 vLLM 背后的核心技术,vLLM 是 LLM 推理和服务引擎,支持各种具有高性能和易于使用的界面的模型。从vllm的源码中我们可以看出来,vllm是怎么样对于huggingface models上的模型进行推理优化的。

2025-05-14 19:41:30 780

原创 大模型(LLMs)LLM生成SFT数据方法

如果是,他们要求 InstructGPT 根据给定的指令为输出生成所有可能的选项,并随机选择特定的输出类别,提示 InstructGPT 生成相应的“输入”内容。对于不属于分类任务的指令,应该有无数的“输出”选项。作者提出了“输入优先”策略,首先提示 InstructGPT根据给定的“指令”生成“输入”,然后根据“指令”和生成的“输入”生成“输出”。步骤3:基于第 2 步的结果,作者使用 InstructGPT 生成相应指令任务的“输入”和“输出”,采用 “输出优先”或“输入优先”的策略。

2025-05-14 19:33:45 375

原创 LLMs 其他 Trick

资源下载网站,为AI开发者提供模型镜像加速服务,通过下载器可以达到10M/s的下载速度,解 决大模型下载时间长、经常断线、需要反复重试等问题,实现镜像加速、断点续传、无人值守下载,

2025-05-13 13:45:13 475

原创 GPT 经验

GPT 经验篇总体上说,Bart侧重于生成式任务和文本生成,而Bert侧重于上下文表示和语境理解。它们在模型 结构和应用场景上存在一定的差异。

2025-05-13 13:44:12 931

原创 大模型(LLMs)生成式大模型

生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类深度学习模型。模型参数量更大,参数量都在Billion级别;可通过条件或上下文引导,产生生成式的内容(所谓的prompt engineer就是由此而来)。

2025-05-12 11:35:36 1048

原创 accelerate 分布式训练

配置= BertConfig.from_pretrained(args.model_path,num_labels=6)配置= BertConfig.from_pretrained(args.model_path,num_labels=6)epoch,self.args.epochs,gloabl_step,self.args.total_step,损失。输出 = self.model_engine.forward(input_ids = input_ids,

2025-05-12 11:33:18 859

原创 微调方法是啥?如何微调?

从表中可以看到,Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估,同时,这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数(delta值)以及论文中参与评估的模型的范围(<1B、<20B、>20B)。并比较了不同的高效微调方法之间的差异;同时,还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果:AdaLoRA效果稍好于FT。

2025-05-11 14:02:22 735

原创 大模型(LLMs)agent

大模型(LLMs)agent一、什么是 大模型(LLMs)agent?二、大模型(LLMs)agent 有哪些部分组成?三、大模型(LLMs)agent 主要 利用了 大模型 哪些能力?四、结合 代码 讲解 大模型(LLMs)agent 思路?五、如何给LLM注入领域知识?六、常见LLM Agent框架或者应用 有哪些?致谢一、什么是 大模型(LLMs)agent?大模型(LLMs)agent 是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、

2025-05-11 14:00:57 1322

原创 大模型(LLMs)强化学习——RLHF及其变种

LLM。

2025-05-10 13:44:14 1011

原创 AI文本分类

文本分类常见面试文本处理通常需要做分词及去除停用词等操作,常会使用一些分词工具,如hanlp、jieba、哈工大LTP、北大pkuseg等。fastText首先把输入转化为词向量,取平均,再经过线性分类器得到类别。输入的词向量可以是预 先训练好的,也可以随机初始化,跟着分类任务一起训练。

2025-05-10 13:41:33 646

原创 大模型 LLM 的架构介绍

3、涌现能力是啥原因?Transformer 架构:大模型 LLM 常使用 Transformer 架构,它是一种基于自注意力机制的序列模型。Transformer 架构由多个编码器层和解码器层组成,每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构,适用于处理大规模语言数据。自注意力机制(Self-Attention):自注意力机制是 Transformer 架构的核心组件之一。它允许模型在生成每个词时,根据输入序列中的其他词来计算该词的表示。

2025-05-09 15:06:24 754

原创 微调方法是啥?如何微调?

从表中可以看到,Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估,同时,这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数(delta值)以及论文中参与评估的模型的范围(<1B、<20B、>20B)。并比较了不同的高效微调方法之间的差异;同时,还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果:AdaLoRA效果稍好于FT。

2025-05-09 15:03:31 1090

原创 大模型(LLMs)agent

大模型(LLMs)agent一、什么是 大模型(LLMs)agent?二、大模型(LLMs)agent 有哪些部分组成?三、大模型(LLMs)agent 主要 利用了 大模型 哪些能力?四、结合 代码 讲解 大模型(LLMs)agent 思路?五、如何给LLM注入领域知识?六、常见LLM Agent框架或者应用 有哪些?致谢一、什么是 大模型(LLMs)agent?大模型(LLMs)agent 是一种超越简单文本生成的人工智能系统。它使用大型语言模型(LLM)作为其核心计算引擎,使其能够进行对话、执行任务、

2025-05-08 17:22:06 961

原创 大模型(LLMs)推理面

可以采用一些方法来处理模型输出的分布稀疏,例如使用softmax函数的温度参数调节来平滑输出分布,或者引入正则化技术,如Dropout,以减少模型对特定类别的过度依赖。对于 fp32,LLaMA-6B 需要 6B*4 bytes = 24GB内存对于 int8,LLaMA-6B 需要 6B*1 byte = 6GB。综上,int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。fp32 精度,一个参数需要 32 bits, 4 bytes.

2025-05-08 17:18:41 382

原创 LLMs 对比

LLMs 训练数据 和 数据量 对比如何?

2025-05-07 20:52:53 113

原创 大模型(LLMs)强化学习PPO

大模型(LLMs)强化学习—— PPO 面。

2025-05-07 20:51:21 579

原创 什么是 LoRA?

什么是 LoRA?二、QLoRA篇五、ChatGLM-6B LoRA后的权重多大?六、LoRA 微调优点是什么?七、LoRA微调方法为啥能加速训练?八、如何在已有LoRA模型上继续训练?九、LoRA 缺点是什么?十、LoRA这种微调方法和全参数比起来有什么劣势吗?十一、LORA应该作用于Transformer的哪个参数矩阵?十二、LoRA 微调参数量怎么确定?十三、Rank 如何选取?十四、alpha参数 如何选取?十五、LoRA 高效微调 如何避免过拟合?十六、微调大模型时, 优化器如何?

2025-05-05 16:00:40 1179

原创 AI向量检索

关系数据库【数据库关系系统】 ⇒ 数据库 ⇒ 表 ⇒ ⾏ ⇒ 列(Columns) Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ ⽂档(Docments) ⇒ 字段(Fields)⾥这就是⼀个⽂档,当然这个⽂档会属于⼀个User的类型,各种各样的类型存在于⼀个索引当中。直接通过pip install faiss-cpu --no-cache进行安装。Elasticsearch的⽂件存储, Elasticsearch是⾯向⽂档型数据库,⼀条数据在这⾥就是⼀个⽂档,

2025-05-05 15:59:23 1367

原创 大模型(LLMs)RAG 版面分析——文本分块面

大模型(LLMs)RAG 版面分析——文本分块面一、为什么需要对文本分块?二、能不能介绍一下常见的文本分块方法?2.1 一般的文本分块方法2.2 正则拆分的文本分块方法2.3 Spacy Text Splitter 方法2.4 基于 langchain 的 CharacterTextSplitter 方法2.5 基于 langchain 的 递归字符切分 方法2.6 HTML 文本拆分 方法2.7 Mrrkdown 文本拆分 方法2.8 Python代码拆分 方法2.9 LaTex 文本拆分 方法致谢 一、

2025-05-04 20:56:33 796

原创 LLMs 测试集中数据泄露

数据泄露(data contamination)是指模型测试集的数据被无意地(!)包含在了训练集中。(如果是故意的,比如trainon测试集,那就是另一个话题了)。这种情况在大模型时代是很难避免的。其实在Common Crawl刚开始被用作训练集时就有不少人意识到了这个问题。比如这篇论文发现,在T5所用的C4数据集中,包含了2-50%不等的GLUE benchmark的原题。导致T5在GLUE极亮眼的数据在当时遭到了不小质疑。

2025-05-04 20:53:53 1157

原创 AI 大模型常见面试题(及内容解析)

解答:多模态大模型是一种能够处理和理解多种不同类型数据输入(如文本、图像、音频和视频)的深度学习模型。它利用不同模态之间的互补性,提供更全面、准确的信息。例如,在智能客服领域,多模态大模型可以结合文本和语音信息,更好地理解用户的意图和需求,提供更精准的回复。

2025-05-03 20:26:16 859

原创 大模型幻觉

在语言模型的背景下,幻觉指的是一本正经的胡说八道:看似流畅自然的表述,实则不符合事实或者是错误的。二、为什么LLM会产生幻觉?源与目标的差异:当我们在存在源与目标差异的数据上训练模型时,模型产生的文本可能与原始源内容产生偏差。这种差异,有时可能是在数据收集过程中不经意间产生的,有时则是故意为之。无意识的源目标差异:这种差异的产生有多种原因。例如,数据可能是基于某种经验法则编制的,使得目标信息并不总是完全依赖源信息。

2025-05-03 20:23:46 874

原创 LLMs Tokenizer Byte-Pair Encoding(BPE)

1 Byte-Pair Encoding(BPE) 如何构建词典?WordPiece 篇1 WordPiece 与 BPE 异同点是什么?本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并SentencePiece 篇简单介绍一下 SentencePiece 思路?把空格也当作一种特殊字符来处理,再用BPE或者来构造词汇表。对比篇举例 介绍一下 不同 大模型LLMs 的分词方式?

2025-05-02 21:17:35 581

原创 AI增量预训练(Pretrain)样本拼接

作者在文中多次强调了数据去重的重要性,并经过消融实验验证了去重对ICLM的正向增益。相比 实体,沿语义聚合的 {examples_i} 分布更加平缓,受泄露影响的风险更低;此外,分布更广泛的数据、更妥善的去重操作,或许也是ICLM能够有效的重要原因。为了提高pretrain效率、拓展LLM最大长度,随机将若干条短文本进行拼接是pretrain阶段常见手 段。基于拼接后的 {examples_k} 进行pretrain;

2025-05-02 21:15:00 865

原创 大模型(LLMs)加速篇

-v data:/data http://ghcr.io/huggingface/text-generation-inference:0.9 \--num-shard 1

2025-04-28 21:31:00 1496

原创 大模型(LLMs)强化学习—— PPO

从下一个token开始,模型能够获得的总奖励(浮点数标量)。这里说的奖励包括Reward Model给出的奖励。一、大语言模型RLHF中的PPO主要分哪些步骤?大语言模型的RLHF 好比是:老师与学生的角色。二、举例描述一下 大语言模型的RLHF?三、大语言模型RLHF 采样篇。

2025-04-28 21:23:00 646

原创 多模态常见面试题

多模态常见面试一、最近关注的论文,多模态视觉大模型(CLIP,DALLE)?多模态视觉大模型是指可以处理多种感知模态数据(如图像和文本)的大型深度学习模型。CLIP和DALL·E都是这方面的重要研究。CLIP(Contrastive Language-Image Pretraining)模型能够将图像和文本嵌入空间连接在一起,使得模型可以理解图像和文本之间的语义关系。DALL·E是一个生成模型,可以根据文本描述生成与之相关的图像。blip2是图像-语言多模态模型的预训练方法。这个架构是2023年才提出的,也

2025-04-27 22:31:34 1052

原创 LLM文档对话 —— pdf解析

笔者建议按照不同类型的pdf做特定处理,例如论文、图书、财务报表、PPT都可以根据特点做一些小的专有设 计。没有GPU的话目标检测模型建议用PaddlePaddle提供的,速度很快。Layout parser只是一个框架,目标检测模型和OCR工具可以自有切换。

2025-04-27 22:30:17 1099

原创 AMP混合精度训练 详细解析

刚进入autocast的上下文时,tensor可以是任何类型,你不要在model或者input上手工调用.half() ,框架会自动做,这也是自动混合精度中“自动”一词的由来。所以动态估计的原理就是在不出现inf或者NaN。另外一点就是,autocast上下文应该只包含网络的前向过程(包括loss的计算),而不要包含反向传播,因为BP 的op会使用和前向op相同的类型。因此,在PyTorch中,当我们提到自动混合精度训练,我们说的就是在NVIDIA的支持Tensor core的CUDA设备上使用。

2025-04-26 15:33:54 1120

原创 大模型(LLMs)进阶

生成式大模型(一般简称大模型LLMs)是指能用于创作新内容,例如文本、图片、音频以及视频的一类深度学习模型。模型参数量更大,参数量都在Billion级别;可通过条件或上下文引导,产生生成式的内容(所谓的prompt engineer就是由此而来)。

2025-04-26 15:29:23 958

原创 微调方法是啥?如何微调?

从表中可以看到,Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估,同时,这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数(delta值)以及论文中参与评估的模型的范围(<1B、<20B、>20B)。并比较了不同的高效微调方法之间的差异;同时,还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果:AdaLoRA效果稍好于FT。

2025-04-24 22:53:29 1055

原创 检索增强生成(RAG) 优化策略

检索增强生成(RAG) 优化策略篇。

2025-04-24 22:52:17 951

原创 大模型推理加速工具 —— vLLM

使用Ray管理分布式运行时。要使用LLM类运行 multi-GPU 推理,请将 tensor_parallel_size 参数设置为要使用的 GPU 数量。之后,可以在多台机器上运行推理和服务,方法是在head节点上启动vLLM进程,将tensor_paralle_size设置为。默认情况下,它在启动服务器http://localhost:8000. 可以使用--host和--port参数指定地址。vLLM 的吞吐量比 HF 高 14 倍 - 24 倍,比 TGI 高 2.2 倍 - 2.5 倍。

2025-04-23 11:52:44 1165

原创 大模型岗位面试全纪录,分享经历与感受

4 论面试,2 轮带 leetcode,然后浅浅问了相关经验,第三轮主要问了大模型的内容,比较标准的问题(transformer,训练,分布式,如何处理训练一些问题比如 loss spike 啥的)。一面是数据组的人,问了很多关于大模型数据处理的内容,感觉答得一般,表达了想去模型组, 然后面试官应该是和 HR 交流了,第二组开始就是模型组的人来面试。他家是做框架为主的,一面问了很多框架内容,各种模型切分方式,问的比较深,好像也问了 flash-attention 的内容,感觉答得还凑合。

2025-04-23 11:51:21 711

原创 SwiftInfer —— 大模型无限流式输入推理打破多轮对话长度限制

如下图所示,假设窗口大小为10个token,随着生成的token增加(由黄色方块表示),我们在KV 缓存中将中间的token踢出,与此同时,始终保持着文本开始的几个token(由蓝色方块表示)。Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能,最多带来额外的最多46%的推理吞吐 速度提升,为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。需要注意的是,StreamingLLM不会直接提高模型能访问的上下文窗口,而是能够在支持流式超多 轮对话的同时保证模型的生成效果。

2025-04-22 18:49:09 1225

原创 大模型校招大厂面试题

很多题目非常强调实践,没有做过大模型的项目且没有针对性准备过,很难回答上。大模型微调是很多公司的考察重点。几种模型的注意力机制、位置编码要熟悉。RLHF 的几步多熟悉熟悉。

2025-04-22 18:34:14 963

原创 LLMs 测试集中数据泄露

数据泄露(data contamination)是指模型测试集的数据被无意地(!)包含在了训练集中。(如果是故意的,比如trainon测试集,那就是另一个话题了)。这种情况在大模型时代是很难避免的。其实在Common Crawl刚开始被用作训练集时就有不少人意识到了这个问题。比如这篇论文发现,在T5所用的C4数据集中,包含了2-50%不等的GLUE benchmark的原题。导致T5在GLUE极亮眼的数据在当时遭到了不小质疑。

2025-04-15 09:54:23 1047

原创 大模型(LLMs)推理

可以采用一些方法来处理模型输出的分布稀疏,例如使用softmax函数的温度参数调节来平滑输出分布,或者引入正则化技术,如Dropout,以减少模型对特定类别的过度依赖。对于 fp32,LLaMA-6B 需要 6B*4 bytes = 24GB内存对于 int8,LLaMA-6B 需要 6B*1 byte = 6GB。综上,int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。fp32 精度,一个参数需要 32 bits, 4 bytes.

2025-04-15 09:52:22 1037

原创 大模型(LLMs)评测面

长文本理解:提出一些需要处理长文本的问题,例如:提供一篇文章,让模型总结出文章的要点,或者请模型创作一个故事或一篇文章,让其有一个完整的情节,并且不要出现明显的逻辑矛盾或故事结构上的错误。长文本生成:请模型创作一个故事或一篇文章,让其有一个完整的情节,并且不要出现明显的逻辑矛盾或故事结构上的错误。语言生成能力:让模型生成一段有关特定主题的文章或故事,评估其生成的文本在结构、逻辑和语法等方面的质量。用的数据集没有被看到过。多样性:提出一个问题,让模型给出多个不同的答案或解决方案,测试模型的创造力和多样性。

2025-04-14 10:33:28 668

原创 基于LLM+向量库的文档对话经验面

2025-04-14 10:31:40 737

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除