
人工智能
文章平均质量分 80
Law-Yao
数字信号处理与人工智能相关的软硬件系统实现工作。
展开
-
SmoothQunat——LLM激活值量化的等价均衡
基于LLM.int8()的分析,随着语言大模型参数规模增大,激活中的异常值(Outlier)占比会显著上升,导致激活值量化误差增大。将LayerNorm中的gamma系数转移至Weight;使用token-wise限幅减少异常值。通过Activation与Weight的等价均衡变换,改善激活量化。使用token-wise动态量化对激活进行量化;Outlier相关的量化方法。对异常值所在列,使用浮点计算。原创 2023-03-26 14:45:24 · 982 阅读 · 1 评论 -
AdaViT——自适应选择计算结构的动态网络
Paper地址:https://arxiv.org/abs/2111.15668GitHub链接:GitHub - MengLcool/AdaViT: Official implementation of AdaViTViT基于其自身结构的特点或优势,具备较好的抽象语义表达或特征表征能力:然而,针对不同难易程度的样本,ViT实际计算所需的Patch数量、Attention head数目或网络层数可以存在区别,因此可构成样本驱动形式的条件计算。 AdaViT通过设计动态网络结构,可根据输入样本的难易、自适应原创 2022-07-02 20:36:27 · 1044 阅读 · 0 评论 -
ViT Slimming——联合结构搜索与Patch Selection
Paper地址:https://arxiv.org/abs/2201.00814GitHub链接:https://github.com/Arnav0400/ViT-SlimViT Slimming通过结构搜索与Patch selection的结合,一方面实现了多维度、多尺度结构压缩,另一方面减少了Patch或Token的长度冗余,从而有效减少参数量与计算量。具体而言,为ViT结构中流动的Tensor定义了相应的Soft mask,在计算时将二者相乘,并在Loss function中引入Soft mask的L原创 2022-06-03 16:13:55 · 1016 阅读 · 0 评论 -
Generative Data-free Quantization——生成式无数据训练后量化方法
前言针对深度学习模型的边缘、移动端设备部署,模型量化已经成为必不可少的技术手段,一方面可缓解模型存储、运行时内存的Overhead(例如INT8量化的理论压缩比为4倍),另一方面通过专用整形计算单元或加速指令可实现推理加速(例如NV GPU的TensorCore单元)。出于用户隐私与数据安全考虑,大多数场景应用仅提供少量无标注数据以支持Label-freePTQ,或者不提供任何数据。在用户不提供任何数据时,Data-free Quantization需要借助Pre-trained Mode...原创 2022-05-15 21:52:44 · 1914 阅读 · 0 评论 -
Focal and Global Knowledge Distillation——目标检测网络的知识蒸馏
Paper地址:https://arxiv.org/abs/2111.11837GitHub链接:https://github.com/yzd-v/FGD方法FGKD(Focal and Global Knowledge Distillation)通过Focal distillation与Global distillation的结合,兼顾了Instance-level信息、Spatial/Channel Attention以及全局相关性信息。首先定义前背景分离Mask、Attenti原创 2022-05-01 22:44:04 · 1536 阅读 · 3 评论 -
MetaTransformer——ViT标准模型结构
Paper地址:https://arxiv.org/abs/2111.11418GitHub链接:GitHub - sail-sg/poolformer: PoolFormer: MetaFormer is Actually What You Need for Vision (CVPR 2022 Oral)方法主流Vision Transformer (ViT)模型的基本模块包含MSA与FFN,其中MSA通过Attention执行Token间相关性建模,实现Context信息编码。由于MSA原创 2022-04-22 22:39:50 · 2883 阅读 · 0 评论 -
FBNetV5——一种面向多任务的高效NAS方法
Paper地址:https://arxiv.org/pdf/2111.10007前言网络结构搜索(NAS:Neural Architecture Search),主要的Motivation有两点:针对特定任务与部署平台,设计精度与速度折中最佳的模型结构; 实现结构设计或搜索的自动化,减轻人工成本与计算资源开销,以提升生产效率;但影响NAS方法可泛化、普遍应用的主要原因包括:过去的NAS工作主要聚焦于图像分类任务,并认为适用于图像分类的最佳模型,也能成为其他任务(如检测、分割等)的最佳原创 2022-01-29 22:17:33 · 5324 阅读 · 3 评论 -
随笔记录——不同模态信号、表征与应用
深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示,并应用于不同的任务场景。如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音原创 2022-01-23 15:38:53 · 3883 阅读 · 0 评论