
Transformer
文章平均质量分 86
Law-Yao
数字信号处理与人工智能相关的软硬件系统实现工作。
展开
-
生成式语言大模型压缩技术思考——以ChatGPT为例
ChatGPT是基于GPT3.5(1750亿参数规模)训练获得的,其模型结构为Decoder-only单向掩码架构,推理部署需要多卡分布式推理调度的支持。原创 2023-02-26 15:40:29 · 6861 阅读 · 0 评论 -
LLM.int8()——自适应混合精度量化方法
随着参数规模的增加,大模型(如GPT-3,OPT-175B等NLP稠密大模型)的实际部署应用,需要消耗一定的计算/存储成本,且推理响应延迟存在限制。原创 2022-12-04 21:51:41 · 3357 阅读 · 0 评论 -
Transformer模型的训练后剪枝方法
最终,针对BERT-base与DistilBERT的结构剪枝,通过本文提出的训练后剪枝方法,在GLUE与SQuAD数据集上,能够实现2x的FLOPS降解、1.56x的推理加速,精度损失低于1%;因此,针对给定的约束条件,通过最小化剪除的Attention heads与FFN Neurons的重要性,可实现剪枝Mask的搜索,搜索算法如下(类似于Post-training量化,仅需少量无标注数据的校准(特征对齐、最小化重建误差等校准方法),通过训练后压缩方法便能获得较好的压缩效果,且。原创 2022-10-07 09:32:17 · 3706 阅读 · 0 评论 -
MetaTransformer——ViT标准模型结构
Paper地址:https://arxiv.org/abs/2111.11418GitHub链接:GitHub - sail-sg/poolformer: PoolFormer: MetaFormer is Actually What You Need for Vision (CVPR 2022 Oral)方法主流Vision Transformer (ViT)模型的基本模块包含MSA与FFN,其中MSA通过Attention执行Token间相关性建模,实现Context信息编码。由于MSA原创 2022-04-22 22:39:50 · 2883 阅读 · 0 评论 -
AdapLeR——基于Adaptive Length Reduction的BERT推理优化
Paper地址:https://arxiv.org/abs/2203.08991GitHub链接:GitHub - amodaresi/AdapLeR通过生成式自监督训练(Generative Self-supervised Learning),预训练模型能够充分掌握语境相关的知识与信息,典型代表如BERT预训练任务MLM、ViT预训练任务MAE、推荐模型预训练任务Next-query Prediction等。对于BERT模型而言,在充分的大规模预训练之后,针对特定的下游任务,凭借语境知识与少量To原创 2022-03-27 20:15:29 · 2224 阅读 · 0 评论 -
ViT结构优化——Searching the Search Space (S3 NAS)
Paper地址:https://arxiv.org/abs/2111.14725GitHub链接:https://github.com/microsoft/Cream概述网络结构搜索(NAS: Neural-network Architecture Search)的设计收敛,首先取决于搜索空间的设计收敛,其次取决于搜索算法的设计收敛,最终结合平台约束、生成一系列满足Trade-off的优化解(构成Pareto-front)。针对Vision-Transformer,为了实现较之AutoFor原创 2022-03-06 20:04:59 · 3641 阅读 · 0 评论 -
PTQ4ViT: Vision Transformer的PTQ方法与框架
参考论文:https://arxiv.org/abs/2111.12293前言将传统的PTQ策略(文章以对称均匀量化为例)直接应用于Vision Transformer,通常会导致较大的精度损失,例如实施8bits量化时,预测精度损失可能超过1%,主要原因在于,Post-Softmax与Post-GELU输出激活的数据分布是偏离高斯分布的:首先在Self-Attention模块中,Softmax计算输出的Attention map呈现对角线聚焦分布、体现出严重的不平衡分布(unbalanced原创 2021-11-26 20:06:51 · 1911 阅读 · 0 评论 -
NAS-Bert——确保One-shot与Task-agnostic
Paper地址:https://arxiv.org/abs/2105.14444概述NAS-Bert在大规模预训练阶段(Bert自监督预训练),通过实施权重共享形式的One-shot NAS,实现了Once for all与Task-agnostic两个目的,分别满足不同平台资源约束的压缩需求、以及不同下游任务的迁移训练需求。Method搜索空间:基于Weight-sharing的特点(Single-path One-shot形式),每个Bert layer(进一步细分为2个Sub-laye原创 2021-10-14 16:03:48 · 744 阅读 · 0 评论 -
Bert/Transformer模型压缩与优化加速
前言Bert/Transformer结构及其变体,已成为自然语言处理 (NLP)、语音识别 (ASR)等领域的主流序列建模结构。并且,相比于卷积操作的局部特征提取能力、以及平移不变性,Self-attention的全局Context信息编码能力,能够使视觉模型具备更强的特征表达能力、与领域适应性。因此在计算机视觉领域,Vision Transformer结构也日益流行、方兴未艾。然而,Transformer模型的高计算复杂度与参数量,限制了模型的推理部署(包括服务端与移动端应用),其计算、存储与运行时内原创 2021-09-14 20:13:50 · 10376 阅读 · 5 评论 -
AutoFormer——首个Vision Transformer的One-shot NAS
Paper地址:https://arxiv.org/abs/2107.00651GitHub地址:https://github.com/microsoft/AutoML前言Bert/Transformer结构,已成为自然语言处理、语音识别与多模态匹配等模型的主流结构,视觉模型也逐渐往Transformer结构收敛。本文针对视觉Transformer提出了AutoFormer方法,是一种基于weight entanglement的One-shot NAS,充分预训练的超网络、能满足多种资源约束的部原创 2021-08-16 18:57:24 · 1123 阅读 · 0 评论 -
具备记忆单元的Transformer ASR (SAN-M)
"SAN-M: Memory Equipped Self-Attention for End-to-End Speech Recognition"这篇文章巧妙的将DFSMN记忆单元、融合到Transformer ASR模型中,取得了显著的改进效果。Paper地址:https://arxiv.org/abs/2006.01713Introduction传统ASR方案采用混合架构,包含了单独的AM、PM、LM; 端到端的ASR方案(将AM、PM、LM集成到一个模型),主要有两种方案: AM+CT原创 2020-08-20 11:51:03 · 3486 阅读 · 0 评论 -
Transformer端侧模型压缩——Mobile Transformer
随着Transformer模型在NLP、ASR等序列建模中的普及应用,其在端侧等资源受限场景的部署需求日益增加。经典的mobile-transformer结构包括evolved tansformer、lite-transformer、mobile-bert、miniLM等模型,借助结构改进、知识蒸馏等策略实现了transformer模型的小型化、并确保精度鲁棒性。 The Evolved Transformer Paper Link:https://arxiv.org/abs/1901.1111.原创 2020-06-19 16:13:26 · 6488 阅读 · 1 评论