
大模型
文章平均质量分 86
Luchang-Li
为什么要博客呢?一是为了记录学习,在写作中增强对知识认知深度,二是为了传播知识本身。
正如自动驾驶的不同层级一样,一个人对知识的掌握也分为了很多层级,比如我认为:
L0:对一个东西没有任何认知。
L1:大致了解基本概念,能够使用,但不知道内部深层次的原理,没法表达清楚。
L2: 基本知道内部的原理,能够比较流畅地表达出来。但能够书面表达往往不意味着能够口头表达,比如能写出PPT,但是不意味着能讲好PPT。
L3:能够流畅地,深入浅出地口头表达,能够准确地回答别人的问题和质疑。
所以可见,表达(不管是博客这种书面还是口头表达)是能够加深你对知识的架构化认知,表达地清晰与否也直接证明了你的认知深度
展开
-
VLLM V1 part 4 - KV cache管理
VLLM V1 part 4 - KV cache block管理原创 2025-04-08 10:59:32 · 615 阅读 · 0 评论 -
VLLM V1 part 5 - graph capture图捕获
VLLM V1 part 5 - graph capture图捕获原创 2025-04-02 18:21:22 · 644 阅读 · 0 评论 -
VLLM V1 part 3 - Scheduler
VLLM V1 part 3 - Scheduler原创 2025-03-28 16:58:00 · 465 阅读 · 0 评论 -
VLLM V1 offline推理2 - Model Executor
VLLM V1 offline推理2 - Model Executor原创 2025-03-28 15:09:10 · 616 阅读 · 0 评论 -
VLLM V1 offline推理1 - 基本流程
VLLM V1 offline推理1 - 基本流程原创 2025-03-26 15:10:48 · 849 阅读 · 0 评论 -
NVIDIA Dynamo源码编译
NVIDIA Dynamo源码编译原创 2025-03-20 16:20:01 · 818 阅读 · 0 评论 -
DeepSeek MLA原理
DeepSeek MLA Explained原创 2025-03-06 11:27:34 · 810 阅读 · 0 评论 -
DeepSeek group-limited expert routing和负载均衡
DeepSeek group-limited expert routing原创 2025-03-03 19:24:42 · 1170 阅读 · 0 评论 -
大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理
针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的原创 2024-09-06 10:12:49 · 1951 阅读 · 0 评论 -
线性代数教材书籍推荐
INTRODUCTI N TO LINEAR ALGEBRA, 线性代数导论,GILBERT STRANG ,有中译本。原创 2024-09-03 17:01:08 · 939 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 927 阅读 · 0 评论 -
大语言模型LLM量化激活outliers异常值抑制
突破性技术: 大语言模型LLM量化激活outliers异常值抑制原创 2024-06-03 10:15:23 · 4381 阅读 · 6 评论 -
Transformer 从attention到grouped query attention (GQA)
Transformer 从Attention到grouped query attention (GQA)原创 2024-05-28 16:38:54 · 1680 阅读 · 0 评论 -
LLM激活稀疏性加速
LLM激活稀疏性加速原创 2024-04-10 09:21:08 · 389 阅读 · 0 评论 -
导出谷歌gemma模型为ONNX
gemma模型导出ONNX原创 2024-03-08 21:05:54 · 1186 阅读 · 6 评论 -
导出LLaMA ChatGlm2等LLM模型为onnx
通过onnx模型可以在支持onnx推理的推理引擎上进行推理,从而可以将LLM部署在更加广泛的平台上面。此外还可以具有避免pytorch依赖,获得更好的性能等优势。原创 2023-08-05 19:15:07 · 6755 阅读 · 1 评论 -
AWQ模型量化实践
AWQ模型量化实践原创 2023-06-28 10:23:02 · 15163 阅读 · 6 评论 -
ZeroQuant-V2 LLM权重与激活量化
ZeroQuant-V2 LLM权重与激活量化原创 2023-06-17 14:52:22 · 1487 阅读 · 0 评论