- 博客(21)
- 收藏
- 关注
原创 LLM每周速递!大模型最前沿:多模态RAG、RAG加速、大模型Agent、模型微调/对齐
论文:https://arxiv.org/pdf/2403.14608大模型能力不断增强,同时参数也在不断加大。受限于计算资源,传统的全参数微调方法可能会显得力不从心,因此需要探索更高效的微调策略,此时参数高效微调(PEFT)技术应运而生。PEFT 提供了一个高效的针对预训练模型的下游任务适配手段,其通过固定大部分预训练参数并微调极少数参数,让大模型轻装上阵,迅速适配各种下游任务,让大模型变得不再「巨无霸」。
2024-11-04 19:29:48
939
原创 有了这个大模型,构建大模型Agent没门槛了!
引擎主要起到规划和反思的作用,工具让大模型可以去做很多复杂的事情,比如生成图片,生成视频,文档问答等等。到2024年9月份了,体验一个新的大模型,可能就是prompt遵循能力,agent的规划,长文本的信息提取,推理等等。一般API都有一个tool_calls的参数可以传入工具,黑盒的封装prompt,既然这里是测试模型的能力,必须不用这个参数了,看看对常规的Agent的prompt的鲁棒性。如之前写过的一样,BigModel大气,作为智谱的官方平台,嘎嘎送token,是真的送!
2024-11-04 19:28:25
311
原创 一个超强的构建Agent的大模型框架
向大家推荐一个超强的构建Agent的大模型框架——PhidataPhidata是一个用于构建智能Agent系统的Python框架。它让你可以方便地创建具有记忆力、知识、工具使用能力和推理能力的AI助手,并将其作为一个完整的软件应用运行(包括数据库、向量数据库、API等)。同时phidata还提供了对Agent系统的监控、评估和优化功能。使用phidata,你可以:构建拥有记忆、知识、工具使用和推理能力的智能Agent。Phidata会管理Agent的状态、记忆和知识,存储在数据库中。
2024-10-29 17:54:43
635
原创 大模型Agent的核心还是prompt?
但近期多模态大模型的进步为我们提供了一个方向:假设我们拥有一个集成的多模态大模型,AI Agent在处理内部多模态任务时的难度将急剧降低,这将导致它所需的交互更少,同时错误发生的几率也会大幅降低。好的Prompt在引导和优化大模型输出方面有着积极的作用,例如,一个清晰明确的Prompt可以显著提升大模型回答的效果,而结构化Prompt则通过提供模板指令和格式要求,帮助AI更准确地捕捉用户的意图。本质上,AI Agent还是依赖于底层的大模型,所以大模型存在的问题也是AI Agent要面对的。
2024-10-29 17:51:51
798
原创 什么情况下需要微调大模型?
(2)我们的分析仅限于单模态语言IT,(3)我们没有研究更先进的对齐方法的影响,如DPO (Rafailov等人,2023年),以及RLHF,并将此留待未来的工作。(5) 最后,本文的发现仅限于通用目的IT数据集(包含所有类型的一般目的日常指令响应对的数据集)和改进特定任务的IT数据集(例如,用于模仿步骤思考以改善数学推理的IT数据集(Chern等人,2023年),可能不遵守我们的发现。接下来,我们表明,尽管有时模式复制有一些优势,如详细而全面的回答,但大多数时候它会损害回答的事实正确性。
2024-10-28 15:16:29
590
原创 大模型重要技术系列三:高效推理
以二分类问题为例简要说一下蒸馏原理,如果输入数据X,标签为0或者1,通过老师模型训练得到模型A,再次把输出X传入模型A,得到的其实是0到1之间的logits值,并不是0或者1,学生模型直接学习输入X和输出的logits,尽量去模仿老师模型。我们重点看看图和算子优化。Skeleton-of-Thought (SoT)是最基础和重要的一个技术,分为两阶段,第一阶段让大模型输出问题的骨架,第二阶段让大模型扩展骨架中的每个点,然后把所有扩展后的内容组合起来得到最后的输出,这样输出的内容都是想要的,没有垃圾数据。
2024-10-28 15:11:29
853
原创 一文讲明白大模型分布式逻辑(从GPU通信原语到Megatron、Deepspeed)
一文讲明白大模型分布式逻辑(从GPU通信原语到Megatron、Deepspeed)
2024-10-26 18:39:32
2064
原创 大模型到底是什么?小白也能看懂的科普贴
例如,对于上面的 token 序列,模型可能会输出一个形状为(序列长度,向量维度)的张量。鉴于最近在做基于大模型和Agent的上层AI应用,如若不了解底层概念,始终还是会限制产品层的能力,因此,最近2周零散时间读完了这本由复旦团队出版的《大规模语言模型:从理论到实践》,基本涉及到了大模型入门所需的核心框架内容,适合扫盲看。但这时候,超级小孩回答的内容还不一定是效果最好的,可能你问「我想出门玩,今天天气咋样」,他会告诉你「今天天气还行」,但其实你背后隐含想了解的可能是:今天会不会下雨,需不需要带伞;
2024-10-26 18:38:11
1114
原创 NeurIPS 2024 | 中科大、微信等提出VLoRA:参数空间对齐的多模态大模型范式
然后,在 cross-attention 模块中,视觉特征与感知查询标记交互,最后通过 feed-forward network,得到 个 ,其中 是感知权重模块的隐藏层维度,并且该特征维度远小于 LLM 的隐藏层维度 (比如 ),有。我们的目的是获得 个 ,而直接使用线性层将 的特征维度从 升维到 会引入极大的参数量,同时,这么一个高维矩阵直接合并到原始权重中可能会影响 LLM 本身的语言能力。因此,我们先采用一个共享的线性层 ,将 个 分别升维到 的维度 ,其中 ,重整形状为 ,称为视觉参数。
2024-10-25 17:28:42
808
原创 TextHarmony:视觉文本理解与生成的新型多模态大模型
该数据集利用先进的闭源MLLM通过提示工程技术合成,为TextHarmony提供了丰富的、详细的图像和文本对,从而显著提高了模型在图像生成方面的性能。此外,TextHarmony 在图像生成任务中的表现也与专门的视觉文本生成模型相当,证明了其在多模态生成任务中的全面性和高效性。例如,在视觉文本感知任务中,模型需要识别和提取图像中的文本;引言:介绍了视觉文本理解与生成任务的重要性,如场景文本检测、文档理解、视觉问答等,并指出了现有多模态大型语言模型(MLLMs)和扩散模型在这些任务中的应用和进展。
2024-10-25 17:26:43
1225
原创 文生图的底层逻辑比你想象中简单!从大语言模型到大型多模态模型的演进与展望
最后,重点介绍了大语言模型和大型多模态模型在同一应用领域中的不同作用与实际价值,同时也指出了大型多模态模型在数据集成、跨模态理解准确性方面的挑战,为基础模型的发展提供全面的视角。淡蓝色表示非多模态模型。同时介绍了大语言模型和大型多模态模型中注意力机制的基本概念,探讨了两种模型的结构和架构,讨论了两者的训练方法和数据源,并研究了基础模型的新兴能力,包括指令遵循和逐步推理。无论是在大语言模型还是在大型多模态模型的测试中,想要模型的处理更加得心应手,除了选择合适的模态编码器之外,预训练也是必不可少的一个过程。
2024-10-24 18:36:23
834
原创 一文讲明白大模型分布式逻辑(从GPU通信原语到Megatron、Deepspeed)
如果你拿到了两台8卡A100的机器(做梦),你的导师让你学习部署并且训练不同尺寸的大模型,并且写一个说明文档。你意识到,你最需要学习的就是关于分布式训练的知识,因为你可是第一次接触这么多卡,但你并不想深入地死磕那些看起来就头大的底层原理,你只想要不求甚解地理解分布式的基本运行逻辑和具体的实现方法。那么,我来帮你梳理关于大模型的分布式训练需要了解的知识。分布式就是把模型或者数据分散分布到不同的GPU去。
2024-10-24 18:34:35
1168
3
原创 多模态大模型最全综述导读
Pre-trained Models:transformer(BERT、GPT)时代,先有预训练的权重,再继续适配下游任务进行一次训练,但还是不同下游任务适配的不一样权重;绿色的部分,视觉生成主题部分回答了Q2;**I/O统一:**使用分词器将各种任务中使用的不同模式的原始输入和输出 (I/O) 分词化为连贯的序列(视觉或文本)分词,然后利用统一的序列到序列模型。论文中回答了经典的5个问题,也阐述了多模态基础模型旨在解决的三个代表性问题:视觉理解任务、视觉生成任务和具有语言理解和生成的通用界面。
2024-10-23 18:04:03
915
原创 从BLIP-2到Qwen2-VL,多模态大模型的技术点总结
阶段2:Q-Former通过一个FC层使得Q-former的输出query embedding Z对齐到与LLM输入同样的维度,并前置于input text embedding一起输入LLM,这种拼接方式有点像软视觉提示(soft visual prompt),q-former在前面预训练任务中已经学到如何抽取蕴含语言信息的视觉表示,该阶段中可以起到把最重要信息输入给LLM同时去除错误没有意义的视觉信息的作用,从而降低LLM学习视觉语言对齐的负担,同时也缓解了灾难遗忘的问题。
2024-10-23 17:52:44
1127
原创 多模态大模型的实现原理,以及技术难点
虽然具有很多优势,但同样也具有很多的问题。多模态的融合是将各模态的特征表示进行融合,常见的方法包括拼接,加权求和,注意力机制以及通过共享Transformer层进行联合编码。。
2024-10-22 16:03:56
2176
原创 必知!大模型背后的6大核心技术!
在此背景下,研究人员纷纷将重心转向大型语言模型基座,基于Transformer的GPT、Bert等大模型在自然语言处理领域取得了令人瞩目的成就,它们如同璀璨的明星,照亮了人工智能的天空。大模型的多模态融合技术通过有效融合各类模态的数据,极大地提升了模型的感知和理解能力,进而显著增强了其性能,并拓宽了应用范围。**降低存储与计算负担:**模型压缩技术有效减少了所需的存储空间和计算资源,使模型更易于部署在各类受限设备上,同时显著提升了推理速度,为用户带来了更流畅的使用体验。
2024-10-22 16:00:29
1010
原创 玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】
对于某些常用的模块,是不是可以像复用代码一样实现 Prompt 的复用?我们所认为的结构化Prompt需要足够的“模板化”,可读性良好,便于对Prompt进行优化迭代,一个没有太多Prompt编写经验的人拿到一个结构化的Prompt后也可以很方便的按照自己的需求进行修改投入实践和使用。这里的「ICIO框架」只包含了四个方面,只是在告诉LLM大模型需要执行的任务时,额外有选择性的描述了背景信息以及输入输出,在实际的使用过程中还是远远不够的,于是诞生了「CRISPE框架」,是用于编写复杂内容的提示词框架。
2024-10-18 09:21:16
1011
原创 新手友好 | 什么是大语言模型和RAG?
尽管这些大型语言模型与小型语言模型(例如 3.3 亿参数的 BERT 和 15 亿参数的 GPT-2)使用相似的架构和预训练任务,但它们展现出截然不同的能力,尤其在解决复杂任务时表现出了惊人的潜力,这被称为“涌现能力”。大型语言模型(LLM)相较于传统的语言模型具有更强大的能力,然而在某些情况下,它们仍可能无法提供准确的答案。**预训练和微调:**LLM 采用了预训练和微调的学习方法。我们一般说的LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。
2024-10-17 09:32:59
891
原创 OpenAIo1炸场,价格战未停,AI大模型五大内幕
H1会场内,蹦跶着各种尺寸各种形态的机器人,宇树科技的机器狗翻着跟头到处卖萌,逐际动力双足机器人摇头晃脑到处溜达,达闼的美人鱼机器人翩翩起舞,穹彻智能的机械臂在叠衣服、削黄瓜。今年模型层的入场券已经从万卡集群向着十万卡集群演进,但迭代速度依然不如人意,GPT-4发布一年多,GPT-5迟迟不能面世,Sora从现货变成期货,应用落地仅能稍稍提效,远达不到重塑商业模式的效果。据智能超参数统计,截止8月底,大模型相关中标项目551个,其中Q1有50个,Q2有187个,7月112个,8月127个,数量显著增长。
2024-10-14 15:13:55
917
原创 InternVL2-1B成社区最喜爱的多模态大模型?低门槛微调教程来啦
在训练脚本 /root/code/XTuner/xtuner/configs/internvl/v2 /internvl_v2_internlm2_2b_qlora_finetune.py 里,这个参数默认值是 lr = 1e-6。/root/code/XTuner/xtuner/configs/internvl/v2 文件夹里,有一个 internvl_v2_internlm2_2b_qlora_finetune.py 文件,这个文件是用 qlora 方法去微调 InternVL2 系列模型的一个脚本。
2024-10-12 15:17:34
1592
1
原创 细谈大模型监督微调SFT:实战经验技巧和debug分析思路
在大模型浪潮初期,我和我的前辈曾经有过一段对话。我:这工作(某个方向的 sft)交给我合适吗,我能胜任吗?前辈:这工作谁都能做。我:那你为啥选我来做?前辈:这不是因为我认识你,跟你熟悉嘛。我:……前辈:你做不做,不做有的是人想做,不行我招个实习生来做。我:我做我做,我当然做。
2024-10-12 15:15:10
525
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人