AI Echoes-优快云博客

原创 LLM（大语言模型）部署加速方法——PagedAttention

与传统的注意力算法不同，允许在不连续的内存空间中存储连续的key和value。四、PagedAttention如何存储连续的key和value？PagedAttention 是 vLLM 背后的核心技术，vLLM 是 LLM 推理和服务引擎，支持各种具有高性能和易于使用的界面的模型。从vllm的源码中我们可以看出来，vllm是怎么样对于huggingface models上的模型进行推理优化的。

2025-05-14 19:41:30 780

原创大模型（LLMs）LLM生成SFT数据方法

如果是，他们要求 InstructGPT 根据给定的指令为输出生成所有可能的选项，并随机选择特定的输出类别，提示 InstructGPT 生成相应的“输入”内容。对于不属于分类任务的指令，应该有无数的“输出”选项。作者提出了“输入优先”策略，首先提示 InstructGPT根据给定的“指令”生成“输入”，然后根据“指令”和生成的“输入”生成“输出”。步骤3：基于第 2 步的结果，作者使用 InstructGPT 生成相应指令任务的“输入”和“输出”，采用 “输出优先”或“输入优先”的策略。

2025-05-14 19:33:45 375

原创 LLMs 其他 Trick

资源下载网站，为AI开发者提供模型镜像加速服务，通过下载器可以达到10M/s的下载速度，解决大模型下载时间长、经常断线、需要反复重试等问题，实现镜像加速、断点续传、无人值守下载，

2025-05-13 13:45:13 475

原创 GPT 经验

GPT 经验篇总体上说，Bart侧重于生成式任务和文本生成，而Bert侧重于上下文表示和语境理解。它们在模型结构和应用场景上存在一定的差异。

2025-05-13 13:44:12 931

原创大模型（LLMs）生成式大模型

生成式大模型（一般简称大模型LLMs）是指能用于创作新内容，例如文本、图片、音频以及视频的一类深度学习模型。模型参数量更大，参数量都在Billion级别；可通过条件或上下文引导，产生生成式的内容（所谓的prompt engineer就是由此而来）。

2025-05-12 11:35:36 1048

原创 accelerate 分布式训练

配置= BertConfig.from_pretrained（args.model_path，num_labels=6）配置= BertConfig.from_pretrained（args.model_path，num_labels=6）epoch，self.args.epochs，gloabl_step，self.args.total_step，损失。输出 = self.model_engine.forward（input_ids = input_ids，

2025-05-12 11:33:18 859

原创微调方法是啥？如何微调?

从表中可以看到，Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估，同时，这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数（delta值）以及论文中参与评估的模型的范围（<1B、<20B、>20B）。并比较了不同的高效微调方法之间的差异；同时，还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果：AdaLoRA效果稍好于FT。

2025-05-11 14:02:22 735

原创大模型（LLMs）agent

大模型（LLMs）agent一、什么是大模型（LLMs）agent？二、大模型（LLMs）agent 有哪些部分组成？三、大模型（LLMs）agent 主要利用了大模型哪些能力？四、结合代码讲解大模型（LLMs）agent 思路？五、如何给LLM注入领域知识？六、常见LLM Agent框架或者应用有哪些？致谢一、什么是大模型（LLMs）agent？大模型（LLMs）agent 是一种超越简单文本生成的人工智能系统。它使用大型语言模型（LLM）作为其核心计算引擎，使其能够进行对话、执行任务、

2025-05-11 14:00:57 1322

原创大模型（LLMs）强化学习——RLHF及其变种

LLM。

2025-05-10 13:44:14 1011

原创 AI文本分类

文本分类常见面试文本处理通常需要做分词及去除停用词等操作，常会使用一些分词工具，如hanlp、jieba、哈工大LTP、北大pkuseg等。fastText首先把输入转化为词向量，取平均，再经过线性分类器得到类别。输入的词向量可以是预先训练好的，也可以随机初始化，跟着分类任务一起训练。

2025-05-10 13:41:33 646

原创大模型 LLM 的架构介绍

3、涌现能力是啥原因？Transformer 架构：大模型 LLM 常使用 Transformer 架构，它是一种基于自注意力机制的序列模型。Transformer 架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离的依赖关系和语言结构，适用于处理大规模语言数据。自注意力机制（Self-Attention）：自注意力机制是 Transformer 架构的核心组件之一。它允许模型在生成每个词时，根据输入序列中的其他词来计算该词的表示。

2025-05-09 15:06:24 754

原创微调方法是啥？如何微调？

从表中可以看到，Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估，同时，这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数（delta值）以及论文中参与评估的模型的范围（<1B、<20B、>20B）。并比较了不同的高效微调方法之间的差异；同时，还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果：AdaLoRA效果稍好于FT。

2025-05-09 15:03:31 1090

原创大模型（LLMs）agent

大模型（LLMs）agent一、什么是大模型（LLMs）agent？二、大模型（LLMs）agent 有哪些部分组成？三、大模型（LLMs）agent 主要利用了大模型哪些能力？四、结合代码讲解大模型（LLMs）agent 思路？五、如何给LLM注入领域知识？六、常见LLM Agent框架或者应用有哪些？致谢一、什么是大模型（LLMs）agent？大模型（LLMs）agent 是一种超越简单文本生成的人工智能系统。它使用大型语言模型（LLM）作为其核心计算引擎，使其能够进行对话、执行任务、

2025-05-08 17:22:06 961

原创大模型（LLMs）推理面

可以采用一些方法来处理模型输出的分布稀疏，例如使用softmax函数的温度参数调节来平滑输出分布，或者引入正则化技术，如Dropout，以减少模型对特定类别的过度依赖。对于 fp32，LLaMA-6B 需要 6B*4 bytes = 24GB内存对于 int8，LLaMA-6B 需要 6B*1 byte = 6GB。综上，int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。fp32 精度，一个参数需要 32 bits, 4 bytes.

2025-05-08 17:18:41 382

原创 LLMs 对比

LLMs 训练数据和数据量对比如何？

2025-05-07 20:52:53 113

原创大模型（LLMs）强化学习PPO

大模型（LLMs）强化学习—— PPO 面。

2025-05-07 20:51:21 579

原创什么是 LoRA？

什么是 LoRA？二、QLoRA篇五、ChatGLM-6B LoRA后的权重多大？六、LoRA 微调优点是什么？七、LoRA微调方法为啥能加速训练？八、如何在已有LoRA模型上继续训练？九、LoRA 缺点是什么？十、LoRA这种微调方法和全参数比起来有什么劣势吗？十一、LORA应该作用于Transformer的哪个参数矩阵？十二、LoRA 微调参数量怎么确定？十三、Rank 如何选取？十四、alpha参数如何选取？十五、LoRA 高效微调如何避免过拟合？十六、微调大模型时, 优化器如何？

2025-05-05 16:00:40 1179

原创 AI向量检索

关系数据库【数据库关系系统】 ⇒ 数据库 ⇒ 表 ⇒ ⾏ ⇒ 列(Columns) Elasticsearch ⇒ 索引(Index) ⇒ 类型(type) ⇒ ⽂档(Docments) ⇒ 字段(Fields)⾥这就是⼀个⽂档，当然这个⽂档会属于⼀个User的类型，各种各样的类型存在于⼀个索引当中。直接通过pip install faiss-cpu --no-cache进行安装。Elasticsearch的⽂件存储， Elasticsearch是⾯向⽂档型数据库，⼀条数据在这⾥就是⼀个⽂档，

2025-05-05 15:59:23 1367

原创大模型（LLMs）RAG 版面分析——文本分块面

大模型（LLMs）RAG 版面分析——文本分块面一、为什么需要对文本分块？二、能不能介绍一下常见的文本分块方法？2.1 一般的文本分块方法2.2 正则拆分的文本分块方法2.3 Spacy Text Splitter 方法2.4 基于 langchain 的 CharacterTextSplitter 方法2.5 基于 langchain 的递归字符切分方法2.6 HTML 文本拆分方法2.7 Mrrkdown 文本拆分方法2.8 Python代码拆分方法2.9 LaTex 文本拆分方法致谢一、

2025-05-04 20:56:33 796

原创 LLMs 测试集中数据泄露

数据泄露（data contamination）是指模型测试集的数据被无意地(!)包含在了训练集中。（如果是故意的，比如trainon测试集，那就是另一个话题了）。这种情况在大模型时代是很难避免的。其实在Common Crawl刚开始被用作训练集时就有不少人意识到了这个问题。比如这篇论文发现，在T5所用的C4数据集中，包含了2-50%不等的GLUE benchmark的原题。导致T5在GLUE极亮眼的数据在当时遭到了不小质疑。

2025-05-04 20:53:53 1157

原创 AI 大模型常见面试题（及内容解析）

解答：多模态大模型是一种能够处理和理解多种不同类型数据输入（如文本、图像、音频和视频）的深度学习模型。它利用不同模态之间的互补性，提供更全面、准确的信息。例如，在智能客服领域，多模态大模型可以结合文本和语音信息，更好地理解用户的意图和需求，提供更精准的回复。

2025-05-03 20:26:16 859

原创大模型幻觉

在语言模型的背景下，幻觉指的是一本正经的胡说八道：看似流畅自然的表述，实则不符合事实或者是错误的。二、为什么LLM会产生幻觉？源与目标的差异：当我们在存在源与目标差异的数据上训练模型时，模型产生的文本可能与原始源内容产生偏差。这种差异，有时可能是在数据收集过程中不经意间产生的，有时则是故意为之。无意识的源目标差异：这种差异的产生有多种原因。例如，数据可能是基于某种经验法则编制的，使得目标信息并不总是完全依赖源信息。

2025-05-03 20:23:46 874

原创 LLMs Tokenizer Byte-Pair Encoding(BPE)

1 Byte-Pair Encoding(BPE) 如何构建词典？WordPiece 篇1 WordPiece 与 BPE 异同点是什么？本质上还是BPE的思想。与BPE最大区别在于:如何选择两个子词进行合并SentencePiece 篇简单介绍一下 SentencePiece 思路？把空格也当作一种特殊字符来处理，再用BPE或者来构造词汇表。对比篇举例介绍一下不同大模型LLMs 的分词方式？

2025-05-02 21:17:35 581

原创 AI增量预训练（Pretrain）样本拼接

作者在文中多次强调了数据去重的重要性，并经过消融实验验证了去重对ICLM的正向增益。相比实体，沿语义聚合的 {examples_i} 分布更加平缓，受泄露影响的风险更低；此外，分布更广泛的数据、更妥善的去重操作，或许也是ICLM能够有效的重要原因。为了提高pretrain效率、拓展LLM最大长度，随机将若干条短文本进行拼接是pretrain阶段常见手段。基于拼接后的 {examples_k} 进行pretrain；

2025-05-02 21:15:00 865

原创大模型（LLMs）加速篇

-v data:/data http://ghcr.io/huggingface/text-generation-inference:0.9 \--num-shard 1

2025-04-28 21:31:00 1496

原创大模型（LLMs）强化学习—— PPO

从下一个token开始，模型能够获得的总奖励（浮点数标量）。这里说的奖励包括Reward Model给出的奖励。一、大语言模型RLHF中的PPO主要分哪些步骤？大语言模型的RLHF 好比是：老师与学生的角色。二、举例描述一下大语言模型的RLHF？三、大语言模型RLHF 采样篇。

2025-04-28 21:23:00 646

原创多模态常见面试题

多模态常见面试一、最近关注的论文，多模态视觉大模型(CLIP,DALLE)？多模态视觉大模型是指可以处理多种感知模态数据（如图像和文本）的大型深度学习模型。CLIP和DALL·E都是这方面的重要研究。CLIP（Contrastive Language-Image Pretraining）模型能够将图像和文本嵌入空间连接在一起，使得模型可以理解图像和文本之间的语义关系。DALL·E是一个生成模型，可以根据文本描述生成与之相关的图像。blip2是图像-语言多模态模型的预训练方法。这个架构是2023年才提出的，也

2025-04-27 22:31:34 1052

原创 LLM文档对话 —— pdf解析

笔者建议按照不同类型的pdf做特定处理，例如论文、图书、财务报表、PPT都可以根据特点做一些小的专有设计。没有GPU的话目标检测模型建议用PaddlePaddle提供的，速度很快。Layout parser只是一个框架，目标检测模型和OCR工具可以自有切换。

2025-04-27 22:30:17 1099

原创 AMP混合精度训练详细解析

刚进入autocast的上下文时，tensor可以是任何类型，你不要在model或者input上手工调用.half() ，框架会自动做，这也是自动混合精度中“自动”一词的由来。所以动态估计的原理就是在不出现inf或者NaN。另外一点就是，autocast上下文应该只包含网络的前向过程（包括loss的计算），而不要包含反向传播，因为BP 的op会使用和前向op相同的类型。因此，在PyTorch中，当我们提到自动混合精度训练，我们说的就是在NVIDIA的支持Tensor core的CUDA设备上使用。

2025-04-26 15:33:54 1120

原创大模型（LLMs）进阶

生成式大模型（一般简称大模型LLMs）是指能用于创作新内容，例如文本、图片、音频以及视频的一类深度学习模型。模型参数量更大，参数量都在Billion级别；可通过条件或上下文引导，产生生成式的内容（所谓的prompt engineer就是由此而来）。

2025-04-26 15:29:23 958

原创微调方法是啥？如何微调？

从表中可以看到，Prompt Tuning、Prefix Tuning、LoRA等少部分微调技术针对不同参数规模的模型进行过评估，同时，这几种方式也是目前应用比较多的高效微调方法。下表展示了各种参数高效方法的参与训练的参数量、最终模型与原始模型的改变参数（delta值）以及论文中参与评估的模型的范围（<1B、<20B、>20B）。并比较了不同的高效微调方法之间的差异；同时，还指出当前大多数高效微调方法存在的一些问题并给出了最佳实践。结果：AdaLoRA效果稍好于FT。

2025-04-24 22:53:29 1055

原创检索增强生成(RAG) 优化策略

检索增强生成(RAG) 优化策略篇。

2025-04-24 22:52:17 951

原创大模型推理加速工具 —— vLLM

使用Ray管理分布式运行时。要使用LLM类运行 multi-GPU 推理，请将 tensor_parallel_size 参数设置为要使用的 GPU 数量。之后，可以在多台机器上运行推理和服务，方法是在head节点上启动vLLM进程，将tensor_paralle_size设置为。默认情况下，它在启动服务器http://localhost:8000. 可以使用--host和--port参数指定地址。vLLM 的吞吐量比 HF 高 14 倍 - 24 倍，比 TGI 高 2.2 倍 - 2.5 倍。

2025-04-23 11:52:44 1165

原创大模型岗位面试全纪录，分享经历与感受

4 论面试，2 轮带 leetcode，然后浅浅问了相关经验，第三轮主要问了大模型的内容，比较标准的问题(transformer，训练，分布式，如何处理训练一些问题比如 loss spike 啥的)。一面是数据组的人，问了很多关于大模型数据处理的内容，感觉答得一般，表达了想去模型组，然后面试官应该是和 HR 交流了，第二组开始就是模型组的人来面试。他家是做框架为主的，一面问了很多框架内容，各种模型切分方式，问的比较深，好像也问了 flash-attention 的内容，感觉答得还凑合。

2025-04-23 11:51:21 711

原创 SwiftInfer —— 大模型无限流式输入推理打破多轮对话长度限制

如下图所示，假设窗口大小为10个token，随着生成的token增加（由黄色方块表示），我们在KV 缓存中将中间的token踢出，与此同时，始终保持着文本开始的几个token（由蓝色方块表示）。Colossal-AI团队发布的SwiftInfer可以进一步提升推理性能，最多带来额外的最多46%的推理吞吐速度提升，为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。需要注意的是，StreamingLLM不会直接提高模型能访问的上下文窗口，而是能够在支持流式超多轮对话的同时保证模型的生成效果。

2025-04-22 18:49:09 1225

原创大模型校招大厂面试题

很多题目非常强调实践，没有做过大模型的项目且没有针对性准备过，很难回答上。大模型微调是很多公司的考察重点。几种模型的注意力机制、位置编码要熟悉。RLHF 的几步多熟悉熟悉。

2025-04-22 18:34:14 963

原创 LLMs 测试集中数据泄露

数据泄露（data contamination）是指模型测试集的数据被无意地(!)包含在了训练集中。（如果是故意的，比如trainon测试集，那就是另一个话题了）。这种情况在大模型时代是很难避免的。其实在Common Crawl刚开始被用作训练集时就有不少人意识到了这个问题。比如这篇论文发现，在T5所用的C4数据集中，包含了2-50%不等的GLUE benchmark的原题。导致T5在GLUE极亮眼的数据在当时遭到了不小质疑。

2025-04-15 09:54:23 1047

原创大模型（LLMs）推理

可以采用一些方法来处理模型输出的分布稀疏，例如使用softmax函数的温度参数调节来平滑输出分布，或者引入正则化技术，如Dropout，以减少模型对特定类别的过度依赖。对于 fp32，LLaMA-6B 需要 6B*4 bytes = 24GB内存对于 int8，LLaMA-6B 需要 6B*1 byte = 6GB。综上，int8 精度的 LLaMA-6B 模型部分大致需要 6GB+6GB+12GB+1.3GB = 25.3GB 左右。fp32 精度，一个参数需要 32 bits, 4 bytes.

2025-04-15 09:52:22 1037

原创大模型（LLMs）评测面

长文本理解：提出一些需要处理长文本的问题，例如：提供一篇文章，让模型总结出文章的要点，或者请模型创作一个故事或一篇文章，让其有一个完整的情节，并且不要出现明显的逻辑矛盾或故事结构上的错误。长文本生成：请模型创作一个故事或一篇文章，让其有一个完整的情节，并且不要出现明显的逻辑矛盾或故事结构上的错误。语言生成能力：让模型生成一段有关特定主题的文章或故事，评估其生成的文本在结构、逻辑和语法等方面的质量。用的数据集没有被看到过。多样性：提出一个问题，让模型给出多个不同的答案或解决方案，测试模型的创造力和多样性。

2025-04-14 10:33:28 668

原创基于LLM+向量库的文档对话经验面

2025-04-14 10:31:40 737

空空如也

空空如也