
多模态大模型
文章平均质量分 91
聚焦多模态大模型,追踪大模型动态热点,探索背后的算力基石。
存内计算开发者社区
专注存内计算
展开
-
中文大模型基准测评2024上半年报告
其中qwen2-7b(70亿参数)取得62分,打败了上一代版本的qwen1.5-32b(320亿参数),qwen2-1.5b(15亿参数)打败了Llama-2-13B-Instruct(130亿参数),展现了更小尺寸的模型的极致性能。国内模型也经历了波澜壮阔的14个月的迭代周期,其中Top1的模型经历了8次易主,不断提升国内模型的最强战力。国内大模型理科表现优异的模型,如Qwen2-72B、AndesGPT和山海大模型4.0稍落后于GPT-4-Turbo-0409,均取得76分的高分。原创 2024-08-30 15:46:46 · 1954 阅读 · 0 评论 -
GLM大模型 - CogVideoX:5B 开源,2B 转为 Apache 协议
为了促进社区的自主使用和开放式创新,我们现决定将参数规模更大、性能更强的产品级模型 CogVideoX-5B 开源,同时 CogVideoX-2B 的开源协议调整为更加开放的Apache 2.0协议。为进一步支持开源社区的广泛使用与开发,我们已将 CogVideoX-2B 的协议调整为 Apache 2.0,任何企业与个人均可自由使用。同时,我们推出了在线体验,并将其源代码开源,涵盖了插帧、超分辨率等先进功能,均采用开源技术方案,实现全流程开源。同样支持多种推理精度;原创 2024-08-29 19:24:14 · 1207 阅读 · 0 评论 -
《黑神话:悟空》横空出世:人工智能加速下的视觉算法神话
不同于外置芯片对画面进行超分辨率得到的画面,显卡级的超分辨率可以获取到游戏生成该画面时使用的一系列数据,进行更准确的插帧,如DLSS帧生成的卷积自动编码器根据当前和之前的游戏帧由Ada Lovelace架构下的光流加速器生成的光流场、运动矢量和深度等游戏内部数据进行超分辨率操作。一类是缓解显卡压力的AI技术,如插帧、超分辨率,根据显卡制造商的不同,代表性的技术有英伟达的DLSS 3、AMD的FSR 3.0、英特尔的XeSS、苹果的MetalFX,这些技术往往同时包括超分辨率和插帧。原创 2024-08-27 14:12:16 · 804 阅读 · 0 评论 -
论文分析|高效长文本生成的技术与应用
—计算时每一层时都需要储存:在模型的不同层,特别是多头自注意力(Multi-Head Attention)层和多层感知器(MLP)层中,计算过程中会产生中间值,如Q(Query)、K(Key)、V(Value)张量,以及MLP层的中间线性变换结果。传统的串行计算方法可能无法满足效率需求,长序列下模型训练和推理会出现新的瓶颈,需要从硬件出发设计算法进行并行优化,如利用现代硬件(如GPU、TPU)的并行处理能力,可以显著加速模型的训练和推理过程。分解过程都是类似的,都是 分解、计算、汇总。原创 2024-08-06 10:48:57 · 1352 阅读 · 0 评论 -
智谱AI推出GLM-4,性能逼近ChatGPT-4
GLM-4的端侧版本在个性化程度和能力上同样具有优势,在语义、数学、推理、代码和知识等多方面的数据集测评中,GLM-4-9B及其人类偏好对齐的版本GLM-4-9B-Chat均表现出超越此前已被证明很强的端侧大模型Llama-3-8B的卓越性能。GLM-4的端侧版本根据模型种类、token序列回溯长度和是否具备多模态处理能力分为了多个版本,适应不同用户、不同硬件资源情况条件下的部署的需求。该模型提供了INT4版本,可以在显存不足的本地环境(8G显存设备)中配置使用[5]。原创 2024-06-11 14:39:35 · 1833 阅读 · 0 评论 -
国产五大模型之一MiniMax 使用国内首个MOE架构
在初始阶段,我们的目标是建立不同模态和语言之间的连接。多模态大模型发展除了模型架构不断优化以提升模型处理能力以及效率,算力架构的优化对深度学习和人工智能的发展至关重要,存内计算架构真正做到存算融合,在存储单元内实现计算的模式相较于传统冯诺伊曼架构,减少了数据来回搬运,算力提升20X,尤其适应大规模的并行计算如深度学习。本次训练通过集成混合专家【MoE】架构来扩展大型多模态模型的能力,通过新的三阶段的训练方式,专门用于提高uni-moe在多模态训练中的稳定性能和泛化性能,优于配备相同配置的传统MoE架构。原创 2024-05-21 15:17:03 · 2954 阅读 · 0 评论 -
大模型公开课-大模型的语言解码游戏
机器学习是一种人工智能(AI)的分支,其目标是使计算机系统能够从数据中学习模式和规律,然后利用这些学习来做出预测或者做出决策,而无需明确地进行编程。简而言之,机器学习算法使计算机系统能够自动地从数据中学习和改进,而不需要显式地进行编程。原创 2024-05-08 14:27:10 · 1009 阅读 · 0 评论 -
全面对标Sora,中国首个Sora级视频大模型Vidu亮相
Vidu的发布,让中国大模型领域看到了更新的希望,也给足了发展的动力,相信Vidu的发布,只是中国大模型取得突破的一个开始。其他国产视频大模型生成的画面“动画感”较强,以动物类模型,用“一个培养皿,里面长着一片竹林,里面有小熊猫在跑来跑去”作为关键词生成视频[4],可以看到字节和腾讯的大模型生成的视频中,小熊猫和环境的动画风格强烈。此外,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。原创 2024-05-03 12:28:01 · 1354 阅读 · 1 评论 -
论文详解:字节万卡集群训练大模型,算力利用率达55.2%
论文:万卡集群训练大模型(by字节跳动)我们介绍了MegaScale的设计、实现和工程经验,这是一个用于训练大语言模型(LLMs)的生产系统,其规模超过10,000个GPU。在这个规模上训练LLMs带来了前所未有的训练效率和稳定性挑战。我们采取全栈方法,共同设计算法和系统组件,涵盖模型块和优化器设计、计算与通信重叠、操作符优化、数据管道和网络性能调优。在生产中,保持整个训练过程的高效率(即稳定性)是一个重要考虑因素,因为LLM训练作业的持续时间很长。许多严重的稳定性问题只在大规模时才显现出来,原创 2024-04-11 16:48:16 · 4986 阅读 · 0 评论 -
GPT-4对多模态大模型在多模态预训练、 理解生成上的启发
多模态大模型在多模态理解与生成上的进展进 一步支撑起了多模态交互技术的广泛应用,能够与 人类或外部环境等对象进行基于多模态输入、输出 的多轮互动交互,包括交互式多模态问答对话、交互 式内容编辑、多模态环境下的交互式决策等。借助大语言 模型强大 的 语 言 理 解 和 生 成 能 力,通 过 将 其 与 视 觉、听觉、触 觉 等 真 实 世 界 的 多 模 态 信 号 结 合,多 模态大模型能够实现以语言赋能的多模态理解、多 模态生成和多模态交互。3.以语言和多模态结合的方式与人和环境交互。原创 2024-04-08 15:35:23 · 1333 阅读 · 0 评论 -
腾讯发表多模态综述,一文详解多模态大模型
MFN的输入是一个包含N个视图的多视图序列,每个视图的长度为t。有点类似nlp和cv里面的trip loss方式(比较学习),值得注意的是,CMCL中的对比loss是对称的,文本到图像的对比loss也类似。多模态大模型脱胎于大模型的发展,传统的多模态模型面临着巨大的计算开销,而 LLMs 在大量训练后掌握了关于世界的“先验知识”,因而一种自然的想法就是使用 LLMs 作为多模态大模型的先验知识与认知推动力,来加强多模态模型的性能并且降低其计算开销,从而多模态大模型这一“新领域”应运而生。原创 2024-04-03 16:51:25 · 3589 阅读 · 0 评论 -
ChatGPT:存算一体,算力的下一极
如今由于海量数据和AI加速时代来临,不得不考虑以最佳的配合方式为数据采集、传输、处理服务,然而存储墙、带宽墙和功耗墙成为首要挑战,虽然多核并行加速技术也能提升算力,但在后摩尔时代,存储带宽制约了计算系统的有效带宽,芯片算力增长步履维艰。端测方面,人工智能更在意及时响应,即“输入”即“输出”,同时,随着存算一体发展,存内计算和存内逻辑,已经可以完成高精度计算;原创 2023-12-15 18:11:24 · 1343 阅读 · 0 评论 -
AI新晋王者Claude3完胜ChatGPT4?
有人要求Claude3为自己画一幅自画像,于是我们得到Claude3对自己的形象做出的详尽而具体的描述:“我将显现为一个巨大的,复杂的,不断变化的几何结构,由无数半透明的多边形组成,具有迷人的配置。Claude家族包括了Claude 3 Haiku, Claude 3 Sonnet,Claude 3 Opus三名成员(图1),每个模型都有着惊人的进步,Claude 3系列模型为企业用例提供了速度和性能的最佳组合,并且在成本上低于市场上的其他模型,允许使用者能够选择在智力、速度和费用上选择最合适的模型。原创 2024-03-11 15:54:15 · 1205 阅读 · 0 评论 -
文生视频Sora模型发布,是否引爆AI芯片热潮
在Open AI给出的技术报告【1】中,笔者挖出了两点Sora的技术要点,分享如下:视觉数据基建----时空碎片(Spacetime Patches)以chatGPT为例,大语言模型首先通过Embedding将人类语言“编码”,然后通过注意力机制Attention提取各种丰富的知识和结构,以加权的形式学习并建立“关键词”之间的联系,最后再“反编码”,以人类的语言输出返回结果。扩散模型DiT,OpenAI 称Sora摒弃了“其他文生视频模型调整视频大小、裁剪或修剪到标准大小的通常做法。原创 2024-03-07 17:03:00 · 1114 阅读 · 1 评论 -
从ChatGPT到Sora,大模型训练中的存储技术和挑战
清华大学舒继武团队分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算模式、访存模式、数据特征,这使得针对互联网、大数据等应用的传统存储技术在处理大模型训练任务时效率低下,且容错开销大;介绍了针对大模型训练的3类存储加速技术与2类存储容错技术;并总结了亟需解决的问题。在存储性能方面,现有工作提出了针对大模训练的存储加速技术. 这些技术可以总结为 3 类:基于大模型计算模式的分布式显存管理技术、大模型训练访存感知的异构存储技术和大模型数据缩减技术。原创 2024-04-02 17:22:17 · 1693 阅读 · 0 评论