
MoE
文章平均质量分 66
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
MoSLD: An Extremely Parameter-Efficient Mixture-of-Shared LoRAs for Multi-Task Learning
最近,LoRA已经成为微调大型预训练模型的关键技术,但它在多任务学习场景中的性能往往不足。相比之下,MoE架构为这个问题提供了一个自然的解决方案。然而,它带来了挑战,例如多个领域的数据相互干扰和各种任务的知识遗忘。此外,MoE显著增加了参数的数量,这带来了计算成本的挑战。因此,在本文中,我们提出了MoSLD,这是一种具有丢弃策略的共享LoRA模型的混合。MoSLD通过在不同专家之间共享LoRA中的上投影矩阵来解决这些挑战,鼓励模型跨任务学习一般知识,同时仍然允许下投影矩阵专注于每个任务的独特特征。原创 2025-01-25 10:00:00 · 117 阅读 · 0 评论 -
AdaMoLE: Fine-Tuning Large Language Models with Adaptive Mixture of Low-Rank Adaptation Experts
我们介绍了 AdaMoLE,这是一种通过低秩适应 (LoRA) 专家的自适应混合来微调大型语言模型 (LLM) 的新方法。AdaMoLE 超越了采用静态 top-k 策略来激活专家的传统方法,它使用专用阈值网络动态调整激活阈值,自适应地响应不同任务的不同复杂性。通过将层中的单个 LoRA 替换为多个 LoRA 专家,并将门控功能与阈值机制集成,AdaMoLE 根据输入上下文有效地选择和激活最合适的专家。我们对各种常识性推理和自然语言处理任务的广泛评估表明,AdaMoLE 超出了基线性能。原创 2024-10-04 11:00:00 · 210 阅读 · 0 评论 -
A Closer Look into Mixture-of-Experts in Large Language Models
专家混合(MoE)因其独特的属性和卓越的性能而受到越来越多的关注,尤其是在语言任务方面。通过稀疏地激活每个token的参数子集,MoE 架构可以在不牺牲计算效率的情况下增加模型大小,从而在性能和训练成本之间实现更好的权衡。然而,MoE的底层机制仍缺乏进一步的探索,其模块化程度也存在疑问。在本文中,我们初步尝试了解基于 MoE 的大型语言模型的内部工作原理。具体来说,我们全面研究了最近三个基于 MoE 的模型的参数和行为特征,并揭示了一些有趣的观察结果,包括(1)神经元的行为就像细粒度的专家一样。原创 2024-09-26 10:49:12 · 377 阅读 · 0 评论 -
X-LORA: MIXTURE OF LOW-RANK ADAPTER EXPERTS, A FLEXIBLE FRAMEWORK for LLMs
我们报告了一种混合专家策略,使用基于低秩自适应(LoRA)的深层token级方法创建微调的大型语言模型。从一组预训练的LoRA适配器开始,我们提出了一种门控策略,该策略使用隐藏状态来动态混合自适应层,允许生成的X-LoRA模型利用不同的能力,并创建以前从未使用过的自适应深层组合,以解决特定任务。该设计的灵感来自普遍性和多样性的生物学原理,其中神经网络构建块在不同的层次表现中被重复使用。因此,X-LoRA模型可以很容易地用于任何现有的大型语言模型(LLM),而不需要修改底层结构。原创 2024-03-19 16:16:37 · 218 阅读 · 0 评论 -
A SURVEY OF LARGE LANGUAGE MODELS IN CYBERSECURITY
大型语言模型(LLM)由于其在处理自然语言时能够在各种领域达到或接近最先进水平,因此迅速崭露头角。一个重要的研究领域是这种模型在网络安全背景下的应用。这项调查旨在确定LLM在网络安全领域的应用位置、使用方式及其在该领域的局限性。最后,就如何改进这些限制以及一旦克服这些限制,可以从这些系统中得到什么提出了建议。原创 2024-03-16 10:58:47 · 152 阅读 · 0 评论 -
Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models
大型语言模型(LLM)发展的一个关键进展是混合专家(MoE)LLM的出现。与传统LLM相比,MoE LLM可以用更少的参数实现更高的性能,但由于其巨大的参数大小,部署起来仍然很困难。与以往依赖于专门设计的硬件的权重修剪方法不同,本文主要旨在通过引入即插即用专家级稀疏化技术来提高MoE LLM的部署效率。具体而言,据我们所知,我们首次提出了MoE LLM的任务不可知和特定任务专家修剪和跳过的后训练方法,旨在提高部署效率,同时在广泛的任务中保持模型性能。原创 2024-03-14 18:31:50 · 193 阅读 · 0 评论 -
LocMoE: A Low-overhead MoE for Large Language Model Training
专家混合模型(MoE)是一种广泛应用于大型语言模型(LLM)的分布式集成学习方法,由于其能够有效地稀疏和扩展模型而备受青睐。然而,由于专家容量大,MoE的性能受到负载不平衡和All To All通信的高延迟以及相对冗余的计算的限制。负载不平衡可能是由于现有的路由策略一贯倾向于选择某些专家造成的。All To All过程中频繁的节点间通信也显著延长了训练时间。为了缓解上述性能问题,我们提出了一种新的路由策略,通过将部分节点间通信转换为节点内通信,将负载平衡和局部性相结合。原创 2024-03-05 14:53:27 · 275 阅读 · 0 评论