LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000（非常详细）从零基础到精通，收藏这篇就够了！

最新推荐文章于 2025-12-02 04:10:41 发布

原创最新推荐文章于 2025-12-02 04:10:41 发布 · 614 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#prompt #人工智能 #深度学习

现在的大模型基本都具备零样本泛化能力，但要在真实场景中做特定的适配，还是得花好几个小时来对模型进行微调。

即便是像LoRA这样的参数高效方法，也只能缓解而不能消除每个任务所需的微调成本。

刚刚，包括尤洋教授在内的来自新加坡国立大学、得克萨斯大学奥斯汀分校等机构的研究人员，提出了一种全新的「拖拽式大语言模型」——Drag-and-Drop LLMs！

论文地址：https://arxiv.org/abs/2506.16406

DnD是一种基于提示词的参数生成器，能够对LLM进行无需训练的自适应微调。

通过一个轻量级文本编码器与一个级联超卷积解码器的组合，DnD能在数秒内，仅根据无标签的任务提示词，生成针对该任务的LoRA权重矩阵。

显然，对于那些需要快速实现模型专业化的场景，DnD可以提供一种相较于传统微调方法更强大、灵活且高效的替代方案。

总结来说，DnD的核心优势如下：

极致效率：其计算开销比传统的全量微调低12,000倍。
卓越性能：在零样本学习的常识推理、数学、编码及多模态基准测试中，其性能比最强大的、需要训练的LoRA模型还要高出30%。
强大泛化：仅需无标签的提示词，即可在不同领域间展现出强大的泛化能力。

DnD实现方法

通过观察，研究人员发现，LoRA适配器无非是其训练数据的一个函数：梯度下降会将基础权重「拖拽」至一个特定任务的最优状态。

如果能够直接学习从提示到权重的映射，那么就可以完全绕过梯度下降过程。

DnD通过两个核心步骤获得「拖拽」能力：准备训练数据（左上）与训练参数生成器（右上）。

在准备数据时，将模型参数（权重）与特定数据集的条件（提示词）进行显式配对。
在训练时，DnD模型将条件作为输入来生成参数，并使用原始的LoRA参数作为监督信号进行学习。

基于这些洞见，团队提出了「拖拽式大语言模型」，它无需微调即可生成任务专属的权重。

团队首先在多个不同数据集上分别训练并保存相应的LoRA适配器。

为了赋予模型「拖拽」的能力，团队将这些数据集的提示词与收集到的LoRA权重进行随机配对，构成DnD模型的训练数据——即「提示词-参数」对。

参数生成器是一个由级联卷积块构成的解码器。

参数生成器的模块细节如下：每个超卷积块包含三个超卷积模块，用于在不同维度上提取并融合特征信息。

训练时，团队采用一个现成的文本编码器提取提示词的嵌入向量，并将其输入生成器。

生成器会预测出模型权重，团队利用其与真实LoRA权重之间的均方误差（MSE）损失来对其进行优化。

在推理阶段，团队只需将来自全新数据集（训练中未见过）的提示词输入DnD，仅需一次前向传播，即可获得为该任务量身定制的参数。

效果评估

零样本学习效果

在新的（测试）数据集上的泛化能力。

在所有未曾见过的数据集上，DnD在准确率上都显著超越了那些用于训练的LoRA模型。

DnD能为数学、代码和多模态问答等更复杂的任务生成参数。

在这些任务上依然展现出强大的零样本学习能力。

DnD在多种任务上超越了基座LLM，展现出显著的「拖拽」增强效果。

DnD能够很好地扩展至更大的7B基座模型，并在更复杂的LiveCodeBench基准测试中保持强劲性能。

通过利用已微调的LoRA作为训练数据，DnD成功地在输入提示词与模型参数之间建立了联系。

团队向DnD输入其训练阶段从未见过的数据集提示词，让它为这些新任务直接生成参数，以此来检验其零样本学习能力。

DnD在权重空间中生成的参数与原始参数分布接近，并且在性能上表现良好。

实验结果表明，在零样本测试集上，团队的方法相较于训练所用的LoRA模型的平均性能，取得了惊人的提升，并且能够很好地泛化到多种真实世界任务和不同尺寸的LLM。

对比其他微调方法

为了进一步展示DnD的强大能力，团队将其与全量样本微调（full-shot tuning）、少样本学习（few-shot）以及上下文学习（in-context learning）进行了对比。

令人惊讶的是，DnD的性能超越了LoRA全量微调的效果，同时速度快了2500倍。

虽然经过更多轮次的迭代，全量微调的性能会超过DnD，但其代价是高达12000倍的推理延迟。

此外，在样本数少于256个时，DnD的性能稳定地优于少样本学习和上下文学习。

尤其值得注意的是，少样本学习和上下文学习都需要依赖带标签的答案，而DnD仅仅需要无标签的提示词。

DnD能够达到与全量样本相当甚至更优的性能，同时速度提高了2500-12000倍

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享**

一、2025最新大模型学习路线

一个明确的学习路线可以帮助新人了解从哪里开始，按照什么顺序学习，以及需要掌握哪些知识点。大模型领域涉及的知识点非常广泛，没有明确的学习路线可能会导致新人感到迷茫，不知道应该专注于哪些内容。

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1级别:AI大模型时代的华丽登场

L1阶段：我们会去了解大模型的基础知识，以及大模型在各个行业的应用和分析；学习理解大模型的核心原理，关键技术，以及大模型应用场景；通过理论原理结合多个项目实战，从提示工程基础到提示工程进阶，掌握Prompt提示工程。

L2级别：AI大模型RAG应用开发工程

L2阶段是我们的AI大模型RAG应用开发工程，我们会去学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3级别：大模型Agent应用架构进阶实践

L3阶段：大模型Agent应用架构进阶实现，我们会去学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造我们自己的Agent智能体；同时还可以学习到包括Coze、Dify在内的可视化工具的使用。

L4级别：大模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，我们会更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调；并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

整个大模型学习路线L1主要是对大模型的理论基础、生态以及提示词他的一个学习掌握；而L3 L4更多的是通过项目实战来掌握大模型的应用开发，针对以上大模型的学习路线我们也整理了对应的学习视频教程，和配套的学习资料。

二、大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

三、大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

四、大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

五、大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

因篇幅有限，仅展示部分资料，需要点击下方链接即可前往获取

2024最新版优快云大礼包：《AGI大模型学习资源包》免费分享