
模型轻量化
文章平均质量分 84
Luchang-Li
为什么要博客呢?一是为了记录学习,在写作中增强对知识认知深度,二是为了传播知识本身。
正如自动驾驶的不同层级一样,一个人对知识的掌握也分为了很多层级,比如我认为:
L0:对一个东西没有任何认知。
L1:大致了解基本概念,能够使用,但不知道内部深层次的原理,没法表达清楚。
L2: 基本知道内部的原理,能够比较流畅地表达出来。但能够书面表达往往不意味着能够口头表达,比如能写出PPT,但是不意味着能讲好PPT。
L3:能够流畅地,深入浅出地口头表达,能够准确地回答别人的问题和质疑。
所以可见,表达(不管是博客这种书面还是口头表达)是能够加深你对知识的架构化认知,表达地清晰与否也直接证明了你的认知深度
展开
-
大语言模型LLM权重4bit向量量化(Vector Quantization)/查找表量化基本原理
针对大语言模型权重的4bit量化,除了常规的广泛使用的group-wise均匀量化,如GPTQ, AWQ等等,苹果提出了一种称为Palettization的lookup table (LUT)查找表量化技术,高通也提出了新的一种向量量化技术,其实这两种技术原理基本上是相同的原创 2024-09-06 10:12:49 · 1952 阅读 · 0 评论 -
TensorRT Model Optimizer量化和模型导出
TensorRT Model Optimizer量化和模型导出原创 2024-08-07 17:38:45 · 927 阅读 · 0 评论 -
大语言模型LLM量化激活outliers异常值抑制
突破性技术: 大语言模型LLM量化激活outliers异常值抑制原创 2024-06-03 10:15:23 · 4387 阅读 · 6 评论 -
LLM激活稀疏性加速
LLM激活稀疏性加速原创 2024-04-10 09:21:08 · 389 阅读 · 0 评论