- 博客(9)
- 收藏
- 关注
原创 vLLM 学习笔记|Guided Decoding
一般来说,LLM 的输出通常是一段符合人类表达习惯的文本序列,这让我们可以利用 LLM 来回答问题或是创作内容。然而,当我们需要 LLM 的输出符合特定的格式(如:JSON、SQL、正则表达式等)时——例如希望 LLM 根据我们的需求生成查询数据库的 SQL 语句,通过微调的方法通常很难达到我们预期的效果。这时,就需要用到 Guided Decoding 技术,它可以通过影响模型输出层的 Logits 分布(施加 Mask 过滤不满足要求的 Token)来达到规范模型输出格式的效果。brand: str。
2025-03-20 15:06:41
652
原创 深入解析 Python 包调用原理与最佳实践
Python 中的模块、包以及库有什么区别?模块(module):任何.py文件都可以作为一个“模块”(除了.py文件之外,模块还可以有其它形式);包(package):任何包含了一个文件的文件夹都是一个“包”,一个包里可以包含其它的包和模块;库(library):“库”更多地是一种编程上的概念,表示可重复利用的代码。关于这个问题,更深入的分析和讲解可以参考知乎上“风影忍者”和“看图学”的这两个回答,这里不再深入进行介绍。将。
2025-01-15 15:45:56
938
原创 大模型微调知识全景
大模型微调一般指的是监督微调(SFT),即使用特定下游任务的数据继续训练“预训练模型(基座模型)”,使得模型能够满足特定下游任务的性能标准。示例一:将大模型微调为一个可以将德语翻译为英语的模型。我们需要使用大量输入为德语、输出为英语的带标签数据来训练 base 大模型,这样经过微调后的大模型就可以很好地用于将德语翻译为英语的任务。示例二:开源模型为了能够直接使用,一般会提供经过问答任务微调的版本,即 Chat 模型。增量预训练:注入领域知识;监督微调:适配特定下游任务(各类微调方法百花齐放);偏好对齐。
2024-12-05 10:51:00
1095
原创 大模型 LoRA 微调原理详解
LoRA(Low-Rank Adaptation,低秩适配器)是目前非常热门的大模型微调技术之一,网上已经有许多关于其原理的分析和讲解,本文将着重从 LoRA 背后的数学原理进行解读。大模型微调(Fine-tuning):基于已经训练好的预训练模型,针对特定的下游任务,在特定领域的数据集上进行二次训练,以提升模型在特定任务上的表现。全量微调:在下游任务的训练中,对预训练模型的每一个参数都做更新(训练代价昂贵);局部微调。
2024-11-13 15:25:07
1217
1
原创 Ascend aclnn 算子开发入门
什么是算子?在 AI 框架中,算子一般指一些最基本的代数运算(如:矩阵加法、矩阵乘法等),多个算子之间也可以根据需要组合成更加复杂的融合算子(如:flash-attention 算子等)。算子的输入和输出都是 Tensor(张量)。融合算子:将多个独立的“小算子”融合成一个“大算子”,多个小算子的功能和大算子的功能等价,但融合算子在性能或者内存等方面优于独立的小算子。另外,算子更多地是 AI 框架中的一个概念,在硬件底层算子具体的执行部分,一般叫做 Kernel(核函数)。
2024-10-23 11:46:56
1431
1
原创 Git 实践案例|合并多个分散的 commit 节点
本文记录了我在开源贡献的过程中遇到的一个小问题(使用 git 调整 commit 的顺序,并整合多个 commit 节点)以及最后是怎么解决的。一般在进行开源贡献提交 PR 之前,我们需要先 fork 想要贡献的仓库到我们自己的 GitHub 仓库中。git remote add upstream <xxx.git> # 新增想要 fork 的仓库的 urlgit remote -v # 查看 remote 中所有的 url,可以看到 origin 和 upstream(共 4 个 url)
2024-10-18 09:00:00
518
原创 Ascend NPU 硬件架构入门
昇腾 NPU 是专门用于 AI 训练/推理计算的 AI 专用处理器,其中的 AI Core 能够在很大程度上提高 AI 计算的效率。本文将主要介绍 ASCEND NPU 的硬件架构 & 工作原理、AI Core 的计算模式以及异构计算平台 CANN 等内容。
2024-08-31 17:52:46
4439
1
原创 NVIDIA GPU 硬件架构入门
随着大模型产业的发展,AI 训练 & 推理对算力的需求越来越大,AI 的计算也越来越离不开 GPU 的支持。CPU(通用处理器);GPU(通用图形处理器);NPU / TPU(AI 专用处理器)。那么 CPU 和 GPU 有什么区别呢?从硬件设计上来看,GPU 的 DRAM 时延(数据搬运、指令执行的延迟)远高于 CPU,但 GPU 的线程数远高于 CPU(有非常多的线程,为大量大规模任务并行而去设计的)。
2024-08-26 17:33:50
2001
原创 从零开始的 AI Infra 学习之路
AI Infra(AI 基础设施)是指为上层的 AI 算法应用提供支持的 AI 全栈底层技术,通过合理利用计算机体系结构,可以实现 AI 计算的加速和部署。AI Infra 主要包括以下内容:AI 训练框架 & 推理引擎;AI 编译 & 计算架构;AI 硬件 & 体系结构。参考资料:;。
2024-08-23 18:17:21
8189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人