tongxianchao-优快云博客

原创 UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer

传统的通过减少网络通道数来实现模型压缩，但在面对包含以及某些高效模块（如广泛使用的）的高效 CNN 模型时，往往难以取得理想的剪枝效果。已有的通过减少网络层数来压缩模型，但由于部分高效模型中存在，这些方法并不适用于此类结构。此外，若在子网微调阶段，会破坏原有模型权重的分布，从而阻碍剪枝后模型达到较高的性能。为了解决上述问题，本文提出了一种。该方法设计了一种，并为子网提出了。此外，我们还将该剪枝方法中。实验结果表明，在多种剪枝配置下，所提出的方法始终优于现有的深度剪枝方法。

2025-12-25 14:07:01 1029

原创 FastViT: A Fast Hybrid Vision Transformerusing Structural Reparameterization

近年来，将 Transformer 与卷积式设计相融合，使得模型在准确率与效率上都稳步提升。本文提出 FastViT，这是一种在延迟-准确率权衡上达到最新水平的混合视觉 Transformer 架构。为此，我们引入了一种新颖的 token 混合算子 RepMixer，作为 FastViT 的核心组件。RepMixer 通过结构重参数化在推理时移除网络中的跳跃连接，从而降低内存访问开销。我们进一步在训练阶段使用过参数化以及大核卷积来提升准确率，并通过实证表明这些选择对延迟的影响极小。

2025-12-03 16:55:54 790

原创 SLICEGPT: COMPRESS LARGE LANGUAGE MODELSBY DELETING ROWS AND COLUMNS

大型语言模型（Large Language Models, LLMs）已成为自然语言处理的基石，但其使用伴随着在计算和内存资源方面的高昂代价。稀疏化（sparsification）提供了一种缓解这些资源限制的解决方案，近期的研究表明，训练好的模型可以在训练后进行稀疏化。然而，现有的稀疏化技术面临一些挑战：它们通常需要额外的数据结构，并且在现有硬件上只能带来有限的加速效果。在本文中，我们提出了一种新的训练后稀疏化方法 SliceGPT，它用一个更小的（稠密）矩阵替换每一个权重矩阵，从而降低了网络的嵌入维度。

2025-07-11 11:42:07 902

原创 LaCo: Large Language Model Pruning via Layer Collapse

基于 Transformer 的大语言模型（LLMs）正呈现出明显的规模扩张趋势，这导致了训练和推理阶段的成本大幅上升。然而，现有的方法如模型量化、知识蒸馏和模型剪枝各自存在限制，包括硬件支持受限、对大量训练的依赖以及对模型内部结构的修改等问题。本文提出了一种简洁的逐层结构化剪枝方法，称为层折叠（Layer Collapse, LaCo）。该方法通过将模型的后续层“折叠”进前面的某一层，实现了在保留模型结构的同时快速压缩模型体积。

2025-07-09 18:20:42 763

原创 ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

随着大型语言模型（LLMs）性能的不断提升，其规模也显著增长，目前的 LLM 参数量达到数十亿甚至数万亿。在本研究中，我们发现 LLM 的各层之间存在显著的冗余现象，某些层对整体网络功能的贡献非常有限。为了量化这一点，我们引入了一个名为Block Influence（层影响力，简称 BI）的指标，该指标通过计算层输入和输出的相似度来衡量每一层的重要性。基于层冗余的观察，我们提出了一种简单的剪枝方法——层移除（layer removal），即根据 BI 分数删除冗余层。我们的方法称为ShortGPT。

2025-07-07 14:47:23 1104 1

原创 Best Practices for Distilling Large Language Models into BERT for Web Search Ranking

近年来，大型语言模型（LLMs）在广泛的自然语言处理任务中表现出色，并显示出作为零样本排序器用于网页搜索的巨大潜力。然而，由于 LLM 在推理过程中延迟较高，它们尚不能直接部署于大型商业搜索系统中。因此，将这些强大的 LLM 能力提炼至轻量级排序模型中，成为一项重要而实用的研究课题。本文提出了一种实用的知识蒸馏范式，我们称之为。具体而言，我们首先通过一个领域相关的继续预训练任务来激发教师模型的排序能力，随后进行有监督的排序微调以进一步提升性能。

2025-06-19 09:34:54 665 1

原创 Distilling Knowledge via Knowledge Revie

知识蒸馏旨在将教师网络的知识传递给学生网络，目标是大幅提升学生网络的性能。以往的方法大多侧重于设计同一级别特征之间的特征变换和损失函数，以提高蒸馏效果。而我们则不同，研究了教师网络和学生网络之间跨层级连接路径这一因素，并揭示了其极为重要的作用。首次在知识蒸馏中提出了跨阶段连接路径。我们设计的新型复审机制不仅高效且结构简单。最终构建的嵌套紧凑框架几乎不增加计算开销，同时在多种任务上优于其他方法。我们将该方法应用于分类、目标检测和实例分割任务，所有任务均显著提升了学生网络的性能。代码已开源，地址为。

2025-06-17 17:28:36 711

原创双空间知识蒸馏用于大语言模型

知识蒸馏（Knowledge Distillation, KD）被认为是一种有前景的方案，可以通过将大型语言模型（LLMs）中的知识迁移到较小的模型中，从而实现模型压缩。在这个过程中，白盒知识蒸馏方法通常通过最小化两个模型输出分布之间的距离，以传递尽可能多的知识。然而，在当前的白盒KD框架中，这些输出分布来自各自模型独立的输出空间，即它们使用各自的预测头。我们认为，这种空间差异会导致教师模型与学生模型在表示层面和分布层面上的相似性较低。

2025-06-05 11:28:31 1128

原创重新审视自回归语言模型的知识蒸馏

知识蒸馏（Knowledge Distillation, KD）是一种常见的方法，用于压缩教师模型，以减少其推理成本和内存占用，通过训练一个更小的学生模型来实现。更大的教师模型反而可能导致更差的学生模型表现。针对这一问题，我们进行了系列分析，发现不同的 token 在教学过程中有不同的“教学模式”，而忽视这一点会导致性能下降。受此启发，我们提出了一种简单而有效的自适应教学方法（Adaptive Teaching for Knowledge Distillation，简称 ATKD），以改进知识蒸馏过程。

2025-06-03 11:51:16 869

原创以少学习：通过无标签数据从大型语言模型进行知识蒸馏

在实际的自然语言处理（NLP）应用中，大型语言模型（LLMs）由于在海量数据上进行过广泛训练，展现出极具前景的解决方案。然而，LLMs庞大的模型规模和高计算需求限制了它们在许多实际应用中的可行性，尤其是在需要进一步微调的场景下。为了解决这些限制，实际部署时通常更倾向于使用较小的模型。但这些小模型的训练常受到标注数据稀缺的制约。

2025-05-27 19:57:27 1066

原创精简大语言模型：用于定制语言模型的自适应知识蒸馏

诸如 GPT-4 和 LLaMA-3 等大型语言模型（LLMs）在多个行业展现出变革性的潜力，例如：提升客户服务、革新医疗诊断流程，或在新闻报道中识别危机事件。然而，在部署 LLM 时仍面临诸多挑战，包括训练数据有限、计算成本高，以及在透明性和可解释性方面存在问题。我们的研究聚焦于从 LLM 中蒸馏出紧凑、参数高效的定制语言模型（TLMs），以应对特定领域任务，并实现与 LLM 相当的性能。

2025-05-13 17:58:30 1302

原创 RAIL-KD: 随机中间层映射知识蒸馏

中间层知识蒸馏（KD）能够改进标准KD技术（仅针对师生模型的输出层），尤其对于大型预训练语言模型效果显著。然而，中间层蒸馏存在计算负担过重和层映射设置工程复杂的问题。为解决这些难题，我们提出随机中间层知识蒸馏（RAIL-KD）方法，通过随机选取教师模型的中间层蒸馏到学生模型的对应层。这种随机选择机制确保：所有教师层都能参与训练过程，同时降低中间层蒸馏的计算开销。此外，该方法还能作为正则化器提升学生模型的泛化能力。

2025-05-09 14:53:12 743

原创通过LoRA适配器对齐中间层大小以实现知识蒸馏

中间层蒸馏（Intermediate Layer Distillation, ILD）是知识蒸馏（Knowledge Distillation, KD）的一种变体，属于神经网络压缩方法。ILD需要通过映射对齐教师模型与学生模型中间层的维度以计算训练损失函数，但该映射在推理阶段并不会被使用。这种不一致性可能会降低中间层的学习效果。本研究提出LoRAILD方法，利用LoRA适配器消除这种不一致性。然而，实验结果表明，LoRAILD并未超越现有方法。

2025-05-07 09:09:30 981

原创 uDistil-Whisper：低数据场景下基于无标签数据过滤的知识蒸馏方法

近期研究通过伪标签（pseudo-labels）将Whisper的知识蒸馏到小模型中，在模型体积减小50%的同时展现出优异性能，最终得到高效、轻量的专用模型。然而，基于伪标签的蒸馏关键步骤需筛选高质量预测结果并仅用于训练，这一过程需依赖真实标签（ground truth）过滤低质量样本，导致方法受限于人工标注数据。此外，传统蒸馏需大量数据，限制了其在低资源场景的应用。为此，我们提出了一种无需任何标注数据的蒸馏框架。

2025-05-06 16:23:11 1313

原创 MiniLLM：大型语言模型的知识蒸馏

知识蒸馏（KD）是一种极具前景的技术，能够有效降低大型语言模型（LLMs）的高计算需求。然而，现有的KD方法主要应用于白盒分类模型，或通过训练小模型来模仿ChatGPT等黑盒模型API。如何将白盒LLMs的知识有效蒸馏到小模型中仍待深入探索——随着开源LLMs的蓬勃发展，这一问题显得愈发重要。本研究提出了一种将LLMs蒸馏至小型语言模型的创新方法。

2025-04-28 11:44:51 893

原创少即是多：面向语言模型压缩的任务感知逐层蒸馏

逐层蒸馏是一种将大型模型（即教师模型）压缩成小型模型（即学生模型）的强大工具。学生模型通过模仿教师模型在每个中间层的隐藏表示来从教师模型中提取知识。然而，逐层蒸馏是困难的。由于学生模型的容量比教师模型小，它常常会出现欠拟合的情况。此外，教师模型的隐藏表示包含了冗余信息，而这些信息对于学生模型学习目标任务来说不一定是必需的。为了解决这些挑战，我们提出了一种新颖的任务感知逐层蒸馏（TED）方法。TED 设计了任务感知滤波器，以便在每一层对齐学生模型和教师模型的隐藏表示。

2025-04-27 16:24:23 881

原创更加重视:通过注意力转移提高卷积神经网络的性能

注意力在人类视觉体验中起着关键作用。近期研究表明，注意力机制在人工神经网络应用于计算机视觉和自然语言处理（NLP）等领域的多种任务时同样至关重要。本工作中，我们证明：通过合理定义卷积神经网络（CNN）的注意力，可以强制学生CNN模仿强大教师网络的注意力图（attention maps），从而显著提升其性能。为此，我们提出了几种新颖的注意力迁移方法，在多种数据集和CNN架构上均实现了稳定改进。

2025-04-25 16:07:34 999

翻译 FitNets: Hints for Thin Deep Nets

尽管增加网络深度通常能提升性能，但更深层的网络往往非线性更强，这使得基于梯度的训练变得更加困难。近期提出的知识蒸馏（knowledge distillation）方法旨在获得更小、执行更快的模型，其研究表明，学生网络可以模仿大型教师网络或集成网络的软输出（soft output）。本文中，我们扩展了这一思想：不仅使用教师网络的输出，还利用其学习到的中间表征（intermediate representations）作为提示（hints），从而训练出比教师网络更深更窄（deeper and thinner）的

2025-04-24 16:27:59 333

tongxianchao的博客

原创 UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer

原创 FastViT: A Fast Hybrid Vision Transformerusing Structural Reparameterization

原创 SLICEGPT: COMPRESS LARGE LANGUAGE MODELSBY DELETING ROWS AND COLUMNS

原创 LaCo: Large Language Model Pruning via Layer Collapse

原创 ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

原创 Best Practices for Distilling Large Language Models into BERT for Web Search Ranking

原创 Distilling Knowledge via Knowledge Revie

原创双空间知识蒸馏用于大语言模型

原创重新审视自回归语言模型的知识蒸馏

原创以少学习：通过无标签数据从大型语言模型进行知识蒸馏

原创精简大语言模型：用于定制语言模型的自适应知识蒸馏

原创 RAIL-KD: 随机中间层映射知识蒸馏

原创通过LoRA适配器对齐中间层大小以实现知识蒸馏

原创 uDistil-Whisper：低数据场景下基于无标签数据过滤的知识蒸馏方法

原创 MiniLLM：大型语言模型的知识蒸馏

原创少即是多：面向语言模型压缩的任务感知逐层蒸馏

原创更加重视:通过注意力转移提高卷积神经网络的性能

翻译 FitNets: Hints for Thin Deep Nets

原创 SparseGPT：大语言模型可精准实现单次剪枝

原创情境学习蒸馏：迁移预训练语言模型的少样本学习能力

原创《点石成金：利用负样本数据蒸馏大语言模型的复杂推理能力》

原创《大语言模型压缩技术综述》

原创大语言模型的知识蒸馏研究综述

原创逐步蒸馏法！以更少训练数据和更小模型规模超越大语言模型

原创本地部署大语言模型，搭建的本地知识库

原创 Hierarchical Ranking Neural Network for Long Document Readability Assessment

空空如也

空空如也