讨厌编程但喜欢LLM的学院派-优快云博客

原创大模型推理加速综述

复习分享一下之前学过的知识点。主要是大模型推理加速方向的分享我会在每个目录下分享自己的学习过程以及实现。欢迎持续关注。

2024-11-06 19:00:14 394

本项目将以Qwen为例，展示如何在其架构中集成第三方插件，实现任务的模块化扩展。我们将详细讲解插件接入的关键步骤，探讨如何借助插件丰富模型的功能，并针对实际应用中的挑战和优化策略进行深入分析。面对复杂的模型架构和繁琐的技术实现，许多从业者或初学者往往无从下手。因此，创办“大模型实战案例”专栏，旨在为读者搭建一个通向大模型实践的桥梁。这个专栏中我们将深入讨论大模型的原理、架构与应用。通过实际项目以及案例来帮助订阅者们能够理解其背后的关键技术。实战项目1:大模型插件使用。

2024-11-04 20:48:11 212

原创从0实现llama3

这个链接实现了一个非常简洁的BPE分词器简易分词器实现 1) 训练 tokenizer 词汇表并合并给定文本，2) 将文本编码为 token，3) 将 token 解码为文本。项目结构如下：Basic.py文件通过BPE算法来合并最常见的字节对，从而构建词汇表并对文本进行编码和解码。加载BPE分词器Llama3定义了一些特殊token，如begin/end_of_text用来标记文本开始结束，reserved_special_token_n：预留标记用来完成特定任务。load_t

2025-01-01 20:27:47 928

原创 SFT训练数据该如何获得

• 通过让ChatGPT基于给定指令生成大量训练数据，并根据需求对数据进行调整，确保任务的多样性和挑战性。• 研究表明，基于指令的数据集能够有效提升大语言模型（LLM）在多种任务上的表现。• ChatGPT作为模型评估的“自我评判者”，提升了评估过程的灵活性与精准度。：在200万条数据的基础上，增加数据集能继续提升性能，但效果递减。生成指令数据集的方法，以及不同规模的数据集在不同任务上的效果。：200万数据的提升效果有限，数据集扩大不会带来显著的改进。（基于指令的微调）成为了NLP领域的热点。

2024-12-25 15:23:42 422

原创强化学习代码实现PPO

梯度更新：通过截断（clipping）限制策略更新幅度，避免策略变化过大影响稳定性。首先是数据预处理，将相关数据（状态、采取的动作、状态奖励、下一个状态）放到gpu上。根据当前状态 state，利用策略网络生成每个动作的概率分布 probs。2. 修改了策略模型的输出，从每个动作的概率分布变成了动作的均值和方差。1. 修改了动作空间，离散空间变成了连续空间，使用正太分布来采样。3. 修改了动作的ratio的计算，从离散分布变成了正太分布计算。Update函数：通过经验缓冲数据来优化策略模型和价值模型。

2024-12-24 10:30:00 347

原创强化学习入门

策略模型（Policy Model）根据当前参数生成了两个回答：

2024-12-23 20:13:40 1176

原创 Pytorch中的CrossEntropyLoss

无论是 1D 数据、序列数据还是高维数据，这个要求都是一致的。第二维度始终对应分类任务中的类别数 (num_classes)，这是 CrossEntropyLoss 的固定设计。1. 对于每个样本或位置，CrossEntropyLoss 期望提供一个类别分布的 logits（未经过 softmax 的分值），的形状为 (N, ...)，表示每个样本对应的分类标签。2. 损失函数会沿着第二维度（类别维度）计算每个样本的交叉熵损失。• ... 是额外的维度（例如序列长度、图像的高度和宽度等）。

2024-12-13 15:13:58 339

原创 RFT 强化微调

强化微调是通过高质量任务数据和参考答案优化大语言模型的推理能力的方法。•核心区别：与传统的监督微调（SFT）不同，RFT 并非简单地“教模型记住答案”，而是引导模型在复杂问题中学会推理，从而更准确地解决任务。•技术构成：RFT 融合了 SFT 的监督学习基础和强化学习（RL）的奖励机制，通过多轮自我优化训练，使模型能生成更高质量的答案。例如，在医疗领域，RFT 可通过患者症状推断潜在的遗传基因，而不仅仅是回忆训练数据中的信息。这种能力对于处理复杂推理任务尤为重要。

2024-12-07 20:37:00 1102

原创 Transfomer教程

当输入中包含自定义的标记符或者自定义的token时，tokenizer可能不会识别出，因此需要使用新token来加入到模型词表中。参数是新 token 列表，如果 token 不在词表中，就会被添加到词表的最后。参数是包含特殊 token 的字典，键值只能从bos_tokeneos_tokenunk_tokensep_tokenpad_tokencls_tokenmask_token中选择。同样地，如果 token 不在词表中，就会被添加到词表的最后。添加后，还可以通过特殊属性来访问这些 token，例如。

2024-12-07 12:01:09 1001

原创 bug解决

1. 使用intruct版本，不要使用base版本。研究了半天发现有两种解决方法。2. 将transformer包降级。

2024-12-04 18:09:46 842

原创正则化记录

[机器学习]正则化方法 -- Regularization_regularizer-优快云博客

2024-11-26 17:15:05 86

原创并行优化策略

•。

2024-11-21 20:49:53 923

原创一文搞懂SGD，Mometum，RMSProp，Adam，Adamw优化器

会累积之前梯度的更新方向，当前更新不只依赖当前的梯度，还受到过去更新方向的影响。2、某些梯度分量的值比另外一些分量的值要大的多，导致个别分量主导了梯度的更新方向，而期望的梯度更新方向却行进的非常缓慢.1、每一轮迭代使用的训练数据一般是小批量的，没有使用全部的训练数据，因此更新方向会发生锯齿状甚至随机震荡状；就会使得对最远的参数影响逐渐衰减，可以有效跟踪趋势，同时减弱数据中的随机波动影响。: 累积的动量值（类似于过去梯度的指数加权平均）。：累积的平方值大，学习率变小，从而减少更新幅度。

2024-11-20 20:05:22 949

原创 pycharm中使用docker开发

记录一下。

2024-11-17 10:24:55 178

原创 sawling law for precision

11月7号发布了一篇论文详细讨论了低精度训练和推理会影响模型的性能。并且将传统的Sawling Law与精度对模型的影响和推理联系了起来。

2024-11-16 11:05:47 1591

原创实战5 基于Qwen2的数据库管理系统

使用模型实现从数据库表格中查询各种信息。

2024-11-13 19:02:14 926

原创 KVcache进阶

上篇文章讲了如KVcache的原理，这篇文章讲解一下KVcache的缓存大小控制KVCache存在的主要问题：KVcache就是一种用内存来换取计算量的方法，但是如果有一个长的token序列，KVcache的缓存太大如何解决？？

2024-11-13 17:48:20 1373

原创实战4 基于Qwen2的信息提取系统

{'address': '北京市朝阳区亮马桥外交办公大楼', 'name': '小明', 'tel': '2450185404'}现在你可以使用这些信息来寄邮件给小明了。如果你还需要进一步的帮助，请告诉我。联系人“小明”已经被成功添加。- 地址: 北京市朝阳区亮马桥外交办公大楼。- 电话: 2450185404。实现一个邮件信息提取系统。

2024-11-11 17:48:04 289

原创 Transformer原理

基础知识不赘述了贴2篇精选文章。

2024-11-09 22:07:34 208

原创 GPU工作原理

学习过程中有很多地方会使用到GPU来进行运算，如训练网络等。了解GPU的工作原理是非常有必要并且很有价值。

2024-11-08 12:00:00 1053

原创详解矩阵乘优化方法

矩阵乘法在深度学习中应用十分广泛，记录一下常见的矩阵乘法。

2024-11-07 16:28:09 1048

原创实战3 基于Qwen2的大模型地图问答助手

首先用户输入一个查询，例如某个地点附近是否有特定地点，然后项目通过与高德地图 API 结合，获取相关的地理位置和附近地点信息。通过定义的工具函数 get_local 和 search_nearby，模型可以实现功能性调用来返回地理位置相关信息。get_completion_demo3函数向模型请求一个完成结果，根据传入的 model 和 message。POI：高德地图中的兴趣点，在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。根据中心点的经纬度，搜索附近的 POI。

2024-11-07 14:00:00 876

wlxsp的博客

原创大模型推理加速综述

原创大模型实战案例目录