- 博客(26)
- 收藏
- 关注
原创 UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer
传统的通过减少网络通道数来实现模型压缩,但在面对包含以及某些高效模块(如广泛使用的)的高效 CNN 模型时,往往难以取得理想的剪枝效果。已有的通过减少网络层数来压缩模型,但由于部分高效模型中存在,这些方法并不适用于此类结构。此外,若在子网微调阶段,会破坏原有模型权重的分布,从而阻碍剪枝后模型达到较高的性能。为了解决上述问题,本文提出了一种。该方法设计了一种,并为子网提出了。此外,我们还将该剪枝方法中。实验结果表明,在多种剪枝配置下,所提出的方法始终优于现有的深度剪枝方法。
2025-12-25 14:07:01
1029
原创 FastViT: A Fast Hybrid Vision Transformerusing Structural Reparameterization
近年来,将 Transformer 与卷积式设计相融合,使得模型在准确率与效率上都稳步提升。本文提出 FastViT,这是一种在延迟-准确率权衡上达到最新水平的混合视觉 Transformer 架构。为此,我们引入了一种新颖的 token 混合算子 RepMixer,作为 FastViT 的核心组件。RepMixer 通过结构重参数化在推理时移除网络中的跳跃连接,从而降低内存访问开销。我们进一步在训练阶段使用过参数化以及大核卷积来提升准确率,并通过实证表明这些选择对延迟的影响极小。
2025-12-03 16:55:54
790
原创 SLICEGPT: COMPRESS LARGE LANGUAGE MODELSBY DELETING ROWS AND COLUMNS
大型语言模型(Large Language Models, LLMs)已成为自然语言处理的基石,但其使用伴随着在计算和内存资源方面的高昂代价。稀疏化(sparsification)提供了一种缓解这些资源限制的解决方案,近期的研究表明,训练好的模型可以在训练后进行稀疏化。然而,现有的稀疏化技术面临一些挑战:它们通常需要额外的数据结构,并且在现有硬件上只能带来有限的加速效果。在本文中,我们提出了一种新的训练后稀疏化方法 SliceGPT,它用一个更小的(稠密)矩阵替换每一个权重矩阵,从而降低了网络的嵌入维度。
2025-07-11 11:42:07
901
原创 LaCo: Large Language Model Pruning via Layer Collapse
基于 Transformer 的大语言模型(LLMs)正呈现出明显的规模扩张趋势,这导致了训练和推理阶段的成本大幅上升。然而,现有的方法如模型量化、知识蒸馏和模型剪枝各自存在限制,包括硬件支持受限、对大量训练的依赖以及对模型内部结构的修改等问题。本文提出了一种简洁的逐层结构化剪枝方法,称为层折叠(Layer Collapse, LaCo)。该方法通过将模型的后续层“折叠”进前面的某一层,实现了在保留模型结构的同时快速压缩模型体积。
2025-07-09 18:20:42
762
原创 ShortGPT: Layers in Large Language Models are More Redundant Than You Expect
随着大型语言模型(LLMs)性能的不断提升,其规模也显著增长,目前的 LLM 参数量达到数十亿甚至数万亿。在本研究中,我们发现 LLM 的各层之间存在显著的冗余现象,某些层对整体网络功能的贡献非常有限。为了量化这一点,我们引入了一个名为Block Influence(层影响力,简称 BI)的指标,该指标通过计算层输入和输出的相似度来衡量每一层的重要性。基于层冗余的观察,我们提出了一种简单的剪枝方法——层移除(layer removal),即根据 BI 分数删除冗余层。我们的方法称为ShortGPT。
2025-07-07 14:47:23
1104
1
原创 Best Practices for Distilling Large Language Models into BERT for Web Search Ranking
近年来,大型语言模型(LLMs)在广泛的自然语言处理任务中表现出色,并显示出作为零样本排序器用于网页搜索的巨大潜力。然而,由于 LLM 在推理过程中延迟较高,它们尚不能直接部署于大型商业搜索系统中。因此,将这些强大的 LLM 能力提炼至轻量级排序模型中,成为一项重要而实用的研究课题。本文提出了一种实用的知识蒸馏范式,我们称之为。具体而言,我们首先通过一个领域相关的继续预训练任务来激发教师模型的排序能力,随后进行有监督的排序微调以进一步提升性能。
2025-06-19 09:34:54
665
1
原创 Distilling Knowledge via Knowledge Revie
知识蒸馏旨在将教师网络的知识传递给学生网络,目标是大幅提升学生网络的性能。以往的方法大多侧重于设计同一级别特征之间的特征变换和损失函数,以提高蒸馏效果。而我们则不同,研究了教师网络和学生网络之间跨层级连接路径这一因素,并揭示了其极为重要的作用。首次在知识蒸馏中提出了跨阶段连接路径。我们设计的新型复审机制不仅高效且结构简单。最终构建的嵌套紧凑框架几乎不增加计算开销,同时在多种任务上优于其他方法。我们将该方法应用于分类、目标检测和实例分割任务,所有任务均显著提升了学生网络的性能。代码已开源,地址为。
2025-06-17 17:28:36
711
原创 双空间知识蒸馏用于大语言模型
知识蒸馏(Knowledge Distillation, KD)被认为是一种有前景的方案,可以通过将大型语言模型(LLMs)中的知识迁移到较小的模型中,从而实现模型压缩。在这个过程中,白盒知识蒸馏方法通常通过最小化两个模型输出分布之间的距离,以传递尽可能多的知识。然而,在当前的白盒KD框架中,这些输出分布来自各自模型独立的输出空间,即它们使用各自的预测头。我们认为,这种空间差异会导致教师模型与学生模型在表示层面和分布层面上的相似性较低。
2025-06-05 11:28:31
1128
原创 重新审视自回归语言模型的知识蒸馏
知识蒸馏(Knowledge Distillation, KD)是一种常见的方法,用于压缩教师模型,以减少其推理成本和内存占用,通过训练一个更小的学生模型来实现。更大的教师模型反而可能导致更差的学生模型表现。针对这一问题,我们进行了系列分析,发现不同的 token 在教学过程中有不同的“教学模式”,而忽视这一点会导致性能下降。受此启发,我们提出了一种简单而有效的自适应教学方法(Adaptive Teaching for Knowledge Distillation,简称 ATKD),以改进知识蒸馏过程。
2025-06-03 11:51:16
869
原创 以少学习:通过无标签数据从大型语言模型进行知识蒸馏
在实际的自然语言处理(NLP)应用中,大型语言模型(LLMs)由于在海量数据上进行过广泛训练,展现出极具前景的解决方案。然而,LLMs庞大的模型规模和高计算需求限制了它们在许多实际应用中的可行性,尤其是在需要进一步微调的场景下。为了解决这些限制,实际部署时通常更倾向于使用较小的模型。但这些小模型的训练常受到标注数据稀缺的制约。
2025-05-27 19:57:27
1066
原创 精简大语言模型:用于定制语言模型的自适应知识蒸馏
诸如 GPT-4 和 LLaMA-3 等大型语言模型(LLMs)在多个行业展现出变革性的潜力,例如:提升客户服务、革新医疗诊断流程,或在新闻报道中识别危机事件。然而,在部署 LLM 时仍面临诸多挑战,包括训练数据有限、计算成本高,以及在透明性和可解释性方面存在问题。我们的研究聚焦于从 LLM 中蒸馏出紧凑、参数高效的定制语言模型(TLMs),以应对特定领域任务,并实现与 LLM 相当的性能。
2025-05-13 17:58:30
1302
原创 RAIL-KD: 随机中间层映射知识蒸馏
中间层知识蒸馏(KD)能够改进标准KD技术(仅针对师生模型的输出层),尤其对于大型预训练语言模型效果显著。然而,中间层蒸馏存在计算负担过重和层映射设置工程复杂的问题。为解决这些难题,我们提出随机中间层知识蒸馏(RAIL-KD)方法,通过随机选取教师模型的中间层蒸馏到学生模型的对应层。这种随机选择机制确保:所有教师层都能参与训练过程,同时降低中间层蒸馏的计算开销。此外,该方法还能作为正则化器提升学生模型的泛化能力。
2025-05-09 14:53:12
743
原创 通过LoRA适配器对齐中间层大小以实现知识蒸馏
中间层蒸馏(Intermediate Layer Distillation, ILD)是知识蒸馏(Knowledge Distillation, KD)的一种变体,属于神经网络压缩方法。ILD需要通过映射对齐教师模型与学生模型中间层的维度以计算训练损失函数,但该映射在推理阶段并不会被使用。这种不一致性可能会降低中间层的学习效果。本研究提出LoRAILD方法,利用LoRA适配器消除这种不一致性。然而,实验结果表明,LoRAILD并未超越现有方法。
2025-05-07 09:09:30
981
原创 uDistil-Whisper:低数据场景下基于无标签数据过滤的知识蒸馏方法
近期研究通过伪标签(pseudo-labels)将Whisper的知识蒸馏到小模型中,在模型体积减小50%的同时展现出优异性能,最终得到高效、轻量的专用模型。然而,基于伪标签的蒸馏关键步骤需筛选高质量预测结果并仅用于训练,这一过程需依赖真实标签(ground truth)过滤低质量样本,导致方法受限于人工标注数据。此外,传统蒸馏需大量数据,限制了其在低资源场景的应用。为此,我们提出了一种无需任何标注数据的蒸馏框架。
2025-05-06 16:23:11
1312
原创 MiniLLM:大型语言模型的知识蒸馏
知识蒸馏(KD)是一种极具前景的技术,能够有效降低大型语言模型(LLMs)的高计算需求。然而,现有的KD方法主要应用于白盒分类模型,或通过训练小模型来模仿ChatGPT等黑盒模型API。如何将白盒LLMs的知识有效蒸馏到小模型中仍待深入探索——随着开源LLMs的蓬勃发展,这一问题显得愈发重要。本研究提出了一种将LLMs蒸馏至小型语言模型的创新方法。
2025-04-28 11:44:51
893
原创 少即是多:面向语言模型压缩的任务感知逐层蒸馏
逐层蒸馏是一种将大型模型(即教师模型)压缩成小型模型(即学生模型)的强大工具。学生模型通过模仿教师模型在每个中间层的隐藏表示来从教师模型中提取知识。然而,逐层蒸馏是困难的。由于学生模型的容量比教师模型小,它常常会出现欠拟合的情况。此外,教师模型的隐藏表示包含了冗余信息,而这些信息对于学生模型学习目标任务来说不一定是必需的。为了解决这些挑战,我们提出了一种新颖的任务感知逐层蒸馏(TED)方法。TED 设计了任务感知滤波器,以便在每一层对齐学生模型和教师模型的隐藏表示。
2025-04-27 16:24:23
881
原创 更加重视:通过注意力转移提高卷积神经网络的性能
注意力在人类视觉体验中起着关键作用。近期研究表明,注意力机制在人工神经网络应用于计算机视觉和自然语言处理(NLP)等领域的多种任务时同样至关重要。本工作中,我们证明:通过合理定义卷积神经网络(CNN)的注意力,可以强制学生CNN模仿强大教师网络的注意力图(attention maps),从而显著提升其性能。为此,我们提出了几种新颖的注意力迁移方法,在多种数据集和CNN架构上均实现了稳定改进。
2025-04-25 16:07:34
999
翻译 FitNets: Hints for Thin Deep Nets
尽管增加网络深度通常能提升性能,但更深层的网络往往非线性更强,这使得基于梯度的训练变得更加困难。近期提出的知识蒸馏(knowledge distillation)方法旨在获得更小、执行更快的模型,其研究表明,学生网络可以模仿大型教师网络或集成网络的软输出(soft output)。本文中,我们扩展了这一思想:不仅使用教师网络的输出,还利用其学习到的中间表征(intermediate representations)作为提示(hints),从而训练出比教师网络更深更窄(deeper and thinner)的
2025-04-24 16:27:59
333
原创 SparseGPT:大语言模型可精准实现单次剪枝
本研究首次证明,大规模生成式预训练变换器(GPT)家族模型可通过单次剪枝实现至少50%的稀疏度,且无需任何重训练过程,精度损失极低。这一突破源于我们提出的新型剪枝方法SparseGPT——专为海量GPT类模型设计的高效精准剪枝方案。实验表明,SparseGPT可在4.5小时内完成当前最大开源模型OPT-175B和BLOOM-176B的剪枝处理,实现60%非结构化稀疏度的同时困惑度几乎无增长:这意味着推理阶段可忽略超过1000亿个权重参数。
2025-04-11 17:57:02
963
原创 情境学习蒸馏:迁移预训练语言模型的少样本学习能力
鉴于大型预训练语言模型在情境学习方面取得的成功,我们提出情境学习蒸馏方法,将大模型的少样本情境学习能力迁移至小模型。该方法通过结合情境学习目标与语言建模目标,使小模型既能理解上下文示例又能掌握任务知识。我们在两种少样本学习范式下实施蒸馏:元情境微调(Meta-ICT)和多任务情境微调(Multitask-ICT)。实验表明,Multitask-ICT在多任务少样本学习中表现更优,但计算开销大于Meta-ICT。在LAMA和CrossFit两个基准测试中,我们的方法对两种范式均带来稳定提升。
2025-04-10 10:54:09
818
原创 《点石成金:利用负样本数据蒸馏大语言模型的复杂推理能力》
大语言模型(LLMs)虽然在各类推理任务中表现优异,但其参数规模庞大且访问受限的特点阻碍了实际应用。通过蒸馏思维链推理路径将LLMs的推理能力迁移至小模型是一种可行方案。然而在面对复杂数学问题时,LLMs生成的推理链可能存在错误。现有研究仅利用正样本进行知识迁移,而将错误答案的合成数据直接丢弃。本研究创新性地揭示了负样本数据的价值,提出包含训练与推理三阶段渐进式框架的模型特化方法,实现正负样本协同蒸馏。我们在数学推理任务上的大量实验表明,负样本数据对LLM知识蒸馏具有显著提升效果。
2025-04-09 13:54:00
1036
原创 《大语言模型压缩技术综述》
大语言模型(LLMs)已成功革新自然语言处理领域,但其庞大的参数量与高昂的计算需求为实际部署带来严峻挑战,尤其在资源受限的场景下。模型压缩技术已成为应对这些挑战的关键研究方向。本文系统综述了面向LLMs的模型压缩方法,涵盖参数量化、权重剪枝和知识蒸馏等核心技术,重点阐释最新研究进展。同时深入探讨评估压缩后LLMs性能的关键基准测试策略与量化指标。本综述旨在为研究者与实践者提供洞见,在提升LLMs运行效率与实际应用价值的同时,为未来技术突破奠定理论基础。
2025-04-09 11:35:58
989
原创 大语言模型的知识蒸馏研究综述
摘要——在大语言模型(LLMs)时代,知识蒸馏(KD)成为将GPT-4等领先专有大模型的高级能力迁移至LLaMA、Mistral等开源模型的核心方法。随着开源LLMs的蓬勃发展,KD不仅在这些模型的压缩过程中发挥关键作用,还能通过自我教学机制促进模型迭代优化。本文系统综述了KD在LLM领域的三重功能:向小模型传递高阶知识、实现模型压缩以及推动自我提升。研究围绕算法、技能和垂直领域三大支柱展开——深入剖析KD技术机理、特定认知能力的强化方法及其跨领域应用范式。
2025-04-08 18:28:24
1046
原创 逐步蒸馏法!以更少训练数据和更小模型规模超越大语言模型
个人总结:1、逐步蒸馏方法是通过大预言模型预测标签中产生的推理依据,小模型通过多任务学习框架,预测标签与推理依据,达到微调和蒸馏的双重效果。2、效果最好的是用80%数据的770M参数T5模型超越了540B参数PaLM模型的少样本提示性能,相差700倍。
2025-04-08 13:34:38
949
原创 本地部署大语言模型,搭建的本地知识库
新建系统变量,变量名:OLLAMA_MODELS 变量值:下载保存路径。复制命令,进入CMD输入ollama run deepseek-r1:1.5b。2、ollama安装模型路径更改,建立模型安装文件ollamaimagers。1、安装包移动到想要安装的磁盘,并建立安装文件夹。启动模型ollama run+空格 模型名字。卸载模型ollama rm+空格 模型名字。查看模型名字ollama list。输入ollama则显示安装成功。3、下载大语言模型,进入官网。点击高级进入环境变量。
2025-03-02 23:18:06
221
原创 Hierarchical Ranking Neural Network for Long Document Readability Assessment
可读性评估旨在评估文本的阅读难度。近年来,尽管深度学习技术逐渐应用于可读性评估,但它没有考虑文本的长度和可读性标签的顺序。在本文中,我们提出了一种应用于可读性评估的层次混合神经网络模型。该模型捕捉上下文信息以指导文本中丰富信息的位置。同时,引入了成对排名算法,通过标签减法来学习可读性级别之间的顺序关系。在多个公共数据集上,我们的模型在不同指标上优于神经文档模型竞争对手和机器学习基准算法。关键词:长文档,多维上下文权重,排名模型。
2024-07-26 20:26:37
1099
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅