
初识大模型
文章平均质量分 87
若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。技术宅麻烦死磕LLM背后的基础模型。当然最重要的是订阅跟随“鲁班模锤”。
庞德公
多年来在人工智能、数据和技术领域兜兜转转,拥有较强的行业洞察力和技术前瞻力。精通数据流通与数据空间技术,高并发、分布式计算、隐私计算、区块链和自然语言处理技术。
展开
-
优雅谈大模型:白话ZeRO 下
若模型足够小,单个GPU能够搞定,则可以使用数据并行将其扩展到多个节点。随着模型大小的增加,可能需要张量并行才能将模型分布到单个节点内的多个 GPU 上。如果模型变得更大,可以在同一节点内应用张量并行,而在不同节点之间使用管道并行。原创 2024-09-01 09:52:42 · 922 阅读 · 0 评论 -
优雅谈大模型:Python编程篇
Python在机器学习领域的地位十分关键,虽然后面有Julia,Mojo等其他对手的挑战,Python拥有庞大的机器学习库和框架,尤其是生态系统。当然它和Java,Scala,Go,Rust等编程语言对比,在工程化方面还是稍欠火候。原创 2024-08-17 08:24:55 · 979 阅读 · 0 评论 -
优雅谈大模型:白话ZeRO
零冗余优化器(Zero Redundancy Optimizer,简称ZeRO)是一种用于大规模分布式深度学习的新型内存优化技术。ZeRO可以在当前一代GPU集群上训练具有100B参数的深度学习模型,吞吐量是当前最佳系统的吞吐量的三到五倍。原创 2024-07-31 06:56:55 · 1183 阅读 · 0 评论 -
优雅谈大模型:揭开计算机视觉任务神秘面纱
人工智能在第四次工业革命发挥着至关重要的作用,它广泛的融入日常生活,例如Google助手、Siri、智能手机摄像头、社交媒体过滤器、自动标记、医疗成像、导航等,所有这些技术都切实的改进和增强日常活动的便利性和习惯。大模型技术发展到现在已经趋于稳定,而加入视觉的多模态大模型才开始兴起,它除了日常生活,还会广泛的融入到工业智造、无人驾驶和机器人等领域。这里计算机视觉就十分重要,它在捕获实时图像、提炼知识以及自主预测和分类图像方面是都不断地进步。计算机视觉使计算机能够解释和检测图像中的模式,其主要目的是复制人原创 2024-07-06 16:34:49 · 953 阅读 · 0 评论 -
解锁Diffusion Model: 初识Stable Diffusion、DALL-E、Imagen
现在的Stable Diffusion、DALL-E、Imagen背后都有比较类似的架构。抽象出来分为三个部分:1 文字Embedding、2 文字和图的Diffusion生成具有特定意义的中间向量、3 将最终的中间向量丢到解码器生成图片。原创 2024-07-03 19:30:52 · 1547 阅读 · 0 评论 -
优雅谈大模型:LangChain Vs. LlamaIndex
LlamaIndex和LangChain的对比其实是一个很复杂的话题,若需要用一句话来总结,LlamaIndex是数据之王,而LangChain是LLM应用程序开发的多面手。原创 2024-06-25 21:36:54 · 1160 阅读 · 0 评论 -
优雅谈大模型:一文读懂LoRA/DoRA/MoRA
LoRA提出了一种微训练模型的新方法,在冻结大部分的模型参数之余,仅仅更新额外的部分参数。同时它的性能与“微调大模型的全部参数”相似,但是能够将训练参数的数量减少了10,000倍,GPU内存需求减少了3倍。原创 2024-06-15 21:45:51 · 7727 阅读 · 0 评论 -
奇思妙想:多头RAG
来自苏黎世联邦理工学院、Cledar、巴斯夫欧洲公司和华沙理工大学的研究人员推出了多头 RAG (MRAG) 来解决多方面查询问题。这种新颖的方案利用了 Transformer 模型的多头注意力层的激活,而不是最后一层解码器的激活。原创 2024-06-12 12:49:49 · 1153 阅读 · 0 评论 -
优雅谈大模型10:MoE
专家混合(层)MoE,允许增加语言模型的大小或容量,而无需相应增加计算量。只是将模型的某些层替换为该层的多个副本(称为“专家”,可以理解为每个副本专注各自的领域),这些副本具有独立的参数。原创 2024-06-06 16:43:24 · 1230 阅读 · 0 评论 -
优雅谈大模型9:大模型的激活函数
实验证明“大激活”这种现象在各种LLMs中广泛存在。这表明它不限于特定模型,而是这些模型的共同特征之一。尽管输入数据有所变化,这些大的激活值在很大程度上保持不变。这表明它们不受输入数据的影响,而是作为模型的固有属性存在。大激活充当LLMs中不可或缺的偏置项,它影响着模型的注意力机制,决定一些特定的部分获得更多的关注。原创 2024-05-21 11:34:20 · 2483 阅读 · 0 评论 -
优雅谈论大模型8:神经网络与矩阵
上个章节的神经网络是为了解Transformer或者Mamba做好铺垫,在和后辈交流过程中发现有个障碍,那就是向量和矩阵。其实向量和矩阵的表达方式不是所有人都很习惯。在继续下面的章节之前小编认为有必要将向量、矩阵和神经网络做下补充解释。原创 2024-05-15 07:37:02 · 1218 阅读 · 1 评论 -
优雅谈论大模型7:重新审视神经网络
在继续往下的旅程之前,神经网络的基本知识十分重要,因为它涉及到后面大模型参数微调内容。于是就先停下来将一些基础知识讲明白。同时审视下神经网络的原理与背后的数学解释。如此可以更加优雅的理解大模型,当然受益的不仅仅是大模型技术,对于其他的深度神经网络也是十分重要。原创 2024-05-14 18:00:57 · 1036 阅读 · 2 评论 -
优雅谈论大模型6:RAGII
RAG存在三种范式。左边为普通模式,由索引、检索和生成三部分组成。中间是进阶版本,它围绕检索前和检索后提出了多种优化策略,其流程与普通版相似,仍然遵循链式结构。最后模块化的进一步发展之前的模式,整体上也拥有更大的灵活性。整个过程不在局限于顺序检索和生成,开启了迭代查询和自适应检索等方法,有点像代理(Agent)。原创 2024-05-13 16:28:10 · 281 阅读 · 1 评论 -
优雅谈论大模型5: RAG
众所周知,大模型以及一些预训练的模型在训练完毕之后会在其参数存储了大量的压缩资讯。但是这样的参数是通过固定的语料库训练而成,训练完毕之后这个模型已经固定了。然而外部资讯瞬息万变,加上大模型本质上为一种概率模型,所以会存在很多问题。打个比方,它没有办法知晓最近发生的事情,同时也会针对一些问题一本正经的胡说八道。原创 2024-05-12 18:50:51 · 613 阅读 · 1 评论 -
优雅谈论大模型4:初识Token
在继续前行之前,需要先停下来澄清下Token这个词,以及如何将原始的语料转化为Token,在细究背后的原理之后会更加优雅的理解大模型。任何的资讯都可以生成语料,而这些语料需要被机器理解以及供后续的模型训练,那么最常见的做法是将一段文字先切片,然后一一对应的转化为数字或者向量输入模型。原创 2024-05-11 20:39:36 · 1174 阅读 · 1 评论 -
优雅谈论大模型3:算力配置
α和β的取值分别为0.5和0.5。故事还没有结束,好事者发现Gopher这个模型,若按照训练它的总算力结合研究成果,它其实只需要63B的参数,以及1.4T的样本即可以达到最优的效果。的前提下,如何权衡训练样本(Token)和模型参数(Size)两者的资源分布,毕竟两者相乘的6倍为一次训练所需的总算力,因此Token和Size的分布也就成了跷跷板。本着看热闹的不嫌事大的精神,好事者决定用Gopher等同的训练总算力,然后按照最佳配置训练新的模型Chinchilla和Gopher比比看,进而证明研究是有效的。原创 2024-05-10 19:35:35 · 924 阅读 · 1 评论 -
优雅谈论大模型2:模型顿悟
大模型领域的技术和模型日新月异。如何读懂一个模型,需要先理解语料、算力以及模型参数之间的关系,例如,如何预估大模型的运算所需要的参数,如何预估大模型的训练时长,一定规模参数的大模型喂入多少量级的语料才是最优,或者有没有在某种情况下模型越大任务的效率越差。原创 2024-05-09 14:42:53 · 624 阅读 · 0 评论 -
优雅谈论大模型1:基本概念
大模型为当下最热门的技术之一,目前市面上充斥着五花八门的资讯,如何让自身保持高度的清醒以及鉴别能力尤为重要。鉴于大部分的人员都非算法或者工程师背景出生,那么如何在免疫底层技术基础上,在特定的“社交场合”优雅的谈论大模型且能够保持一定的专业度将至关重要。本系列为居家旅行,“拔草灭口”的必备系列。原创 2024-05-08 09:58:06 · 1487 阅读 · 1 评论