- 博客(142)
- 收藏
- 关注

原创 MOE Yuan2.0 预训练 Yuan2.0-M32/examples/pretrain_yuan2.0_moe_2x32B.sh
这个脚本配置并运行了一个名为 "Yuan-2.1B" 的大规模预训练模型,涉及多个 GPU 和可能的多节点分布式训练。可以通过 ' 标志激活基于局部过滤的注意力 (LFA)本文档提供了Yuan2.0-M32预训练模型的说明。标志可以控制简单而高效的三维模型并行方法。在运行脚本之前,应正确设置相关参数。首先,进行任何所需的修改,包括设置、将标志设置为,则每个管道阶段的。逐行解释 "Yuan-2.1B。命令执行分布式训练脚本。控制训练期间内存的使用。Yuan2.0 预训练。变压器层数应由指定。
2024-07-10 21:05:54
815
原创 一文搞懂风靡硅谷的 Vibe Coding,跟上 AI 编程的新范式
2025年2月,前OpenAI和特斯拉AI团队领导者Andrej Karpathy在社交平台X上发布了一条引发广泛讨论的帖子,提出了"Vibe Coding"(感觉式编程)的概念。这一概念描述了开发者"完全沉浸在感觉中",依靠大语言模型(LLM)生成代码而无需理解输出的开发方式。短短两个月内,Vibe Coding迅速成为科技圈热门话题,甚至被美国韦氏词典收录为"俚语和流行词"。简单来说,Vibe Coding是一种让AI为你编写代码的方法,你只需用自然语言描述你想要什么,而不必关心代码实现细节。
2025-04-04 22:06:22
504
原创 加速通用人形机器人的开发:NVIDIA Isaac GR00T N1
由于需要大量特定于任务的数据、高昂的计算成本,且模型的泛化能力有限,针对每一个新的任务和环境,从零开始训练这些模型是一个非常繁琐的过程。通过结合这些多样化的数据并使用诸如潜在动作训练等技术,机器人可以从大规模、未标记的人类视频数据中学习而无需监督,从而形成一种强大的策略,增强机器人训练,提高 GR00T N1 的性能和适应性。与扩散策略基线相比,Isaac GR00T N1 模型展示了更平滑和流畅的运动,以及在抓取精度上的显著提高,特别是在使用较小的后训练数据集进行微调时。
2025-04-04 22:05:11
496
原创 swift GRPOTrainer类 源码解析
如何处理 DeepSpeed Stage 3 参数收集。如何自定义训练回调以优化内存和数据加载。如何定义训练过程中的输入输出缓存结构。它是构建一个高效、可扩展的大模型训练框架的重要组件。*_args,**kwargs):else:else:= 'no':else:else:o-LatestPoe这段代码定义了类,是 Swift 框架下用于强化学习人类反馈(RLHF)的大模型训练器,集成了多个模块(如 vLLM、LMDeploy、DeepSpeed等)。
2025-04-04 22:03:07
418
原创 多模态GRPO完整实验流程 swift
本任务从数据集出发,模型的目标是输出图像中包含的物体数量,因此,我们定义数据集如下:classsubsets=[),],这里重新定义的目的是修改query。数据集示例样本如下,包含messages,images和solution字段,solution会送入后续的奖励函数中,而messages和images则会作为模型输入。将会在中被移除,可以忽略。'solution'字段将会透传入ORM中。在自定义数据集时,'images'字段组织成即可。。
2025-04-04 21:56:58
804
原创 GRPO完整实验流程 swift
的任务目标是根据给定的几个数字和加减乘除四种运算,得到目标数字,因此,我们定义数据集如下:"""通过template, 使用 numbers 和 target完成任务定义,并给到 query 字段供模型采样使用。同时,我们需要保留 nums 和 target两个字段,用于后续的奖励函数计算。本任务使用的奖励函数有两个,一个是 Deepseek-R1 中提到的格式奖励函数,另一是 Coundown Game 的准确性奖励函数。前者已经在swift中内置,通过。
2025-04-04 21:44:17
794
原创 FlashTokenizer: 基于C++的高性能分词引擎,速度可以提升8-15倍
FlashTokenizer是一款面向高性能计算的CPU分词引擎,专门针对BERT等Transformer架构的大型语言模型进行了底层优化。该引擎基于高效C++实现,采用了多项性能优化技术,确保在维持词元切分准确性的同时,大幅提升处理速度。通过与业界广泛应用的等标准分词器的对比测试,FlashTokenizer在相同硬件环境下实现了8-15倍的性能提升。这一显著的速度优势使模型推理过程中的文本预处理时间得到大幅缩减,从而提高了端到端应用的响应效率。
2025-04-04 21:40:19
501
原创 大语言模型的起点「基础模型」
基础模型的特点类似于「背诵课文」,它擅长记忆和补全已有内容,可以准确的记住下一个参数是什么,而当你的问题超过它所记忆的知识截止日期,它就会胡说八道。例如,在英语文本中,「Hello」后面往往跟着「World」,因此模型可以学习这种规律,将高频短语映射为单个 Token,以减少存储和计算成本。」,但可能会得到不同的答案,这是因为模型在推理过程中仍然存在一定的随机性和未微调的状态。上面的图片,从左到右,从上到下,这些文本人类可以识别,但计算机不能,计算机无法直接理解自然语言,因此必须将文本转换成数值。
2025-04-04 20:40:49
555
原创 通过 Markdown 改进 RAG 文档处理通过 Markdown 改进 RAG 文档处理作者:Tableau原文地址:https://zhuanlan.zhihu.com/p/291397
2025年04月03日 08:01广东。
2025-04-04 20:38:18
540
原创 不止朱啸虎,具身智能投资人心里也打鼓
好几个早期投机器人的基金今年都打算退,在2022、2023年出手的项目,现在普遍回报都有5-10倍,明年的逻辑就是落地PMF,妖魔鬼怪要现形,不好堆估值了。2022年10月1日,大洋彼岸的特斯拉发布首款人形机器人“擎天柱”,如同蝴蝶扇起一阵飓风,吹起了中国具身智能的创业浪潮——隔年,两家独角兽企业智元机器人和银河通用先后成立。这也导致一个特殊的现象——“具身智能项目第一轮是通常朋友圈或者最活跃的美元基金,接着就是相关的产业方与CVC,又因为看不到其他增量资金来源,国资的入局比原来更迅速。
2025-04-04 20:35:32
569
原创 里程碑,GPT-4.5大模型正式通过图灵测试!
每个点代表一个单独的游戏。:GPT-4.5-PERSONA 的胜率为 73%,LLAMA-PERSONA 为 56%,而 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的胜率分别为 36% 和 38%。审讯者所采用策略的分类,左侧显示各类策略在游戏中的占比,右侧显示使用这些策略的游戏的平均准确率,并附有95%置信区间。然而,在 GPT-4.5-PERSONA 和 LLAMA-PERSONA 的游戏中,裁判的准确率并不显著高于随机水平,表明他们无法可靠地区分人类和这些模型。
2025-04-04 20:33:52
683
原创 彻底搞懂一个算法,Prophet!!
原创 程序员小寒 程序员学长 2025年04月02日 23:35 北京大家好,我是小寒今天给大家分享一个超强的算法模型,ProphetProphet 算法是由 Facebook 开发的一种时间序列预测算法,特别适用于处理具有强季节性、节假日效应和趋势变化的时间序列数据。该模型的设计目标是简化时间序列预测任务,使得用户无需对数据做过多的预处理,且具有良好的可解释性。Prophet 是一种基于加法模型的时间序列预测算法,它通过分解时间序列为不同的组成部分来进行建模。具体来说,Prophet 假设时间序列 可以
2025-04-04 20:32:41
622
原创 llm.c项目 github
我还认为这样做具有教育目的,可以建立专家上限和测量单位,例如,您可以说您手动编写的内核是 cuBLAS 速度的 80%,等等。如果有一个 PR 可以将性能提高 2%,但它“花费” 500 行复杂的 C 代码,甚至可能是一个奇特的第三方依赖项,我可能会拒绝该 PR,因为复杂性不值得。举一个具体的例子 - 将 cuBLAS 作为根训练循环中的 matmuls 默认值是明智之举:它使主线代码更快,它是一行可解释的代码,并且它是一种非常常见的依赖项。这是了解如何在 C 中实现这些层的一个很好的起点。
2025-04-04 20:30:28
400
原创 上饶麻将是怎么计算分数的?
在上饶麻将中,宝牌是一个特殊的存在,所以在计分规则中,有宝与无宝还是有着一定区别的,因为“宝”的加入使得玩家更容易胡牌,所以无宝胡牌时的分数往往要来的更多。看完了以上内容,相信大家对于上饶麻将的计分规则,应当有了一定的了解了。8、七对九幺清一色无宝自摸——胡牌64分(字一色)。11、碰碰胡九幺清一色无宝自摸——胡牌64分。12、碰碰胡九幺清一色有宝自摸——胡牌16分。5、碰碰胡清一色无宝自摸——胡牌32分。4、七对清一色无宝自摸——胡牌32分。6、碰碰胡清一色有宝自摸——胡牌8分。
2025-01-24 00:31:30
1640
原创 基于大模型的具身智能系统综述
得益于近期具有世界知识的大规模预训练模型的迅速发展,基于大模型的具身智能在各类任务中取得了良好的效果,展现出强大的泛化能力与在各领域内广阔的应用前景。鉴于此,对基于大模型的具身智能的工作进行了综述,首先,介绍大模型在具身智能系统中起到的感知与理解作用;其次,对大模型在具身智能中参与的需求级、任务级、规划级和动作级的控制进行了较为全面的总结;然后,对不同具身智能系统架构进行介绍,并总结了目前具身智能模型的数据来源,包括模拟器、模仿学习以及视频学习;
2025-01-24 00:00:52
1394
原创 智能体:不止于智能体
总的来说,虽然早期智能体研究取得了一些成功,例如基于规则系统和符号逻辑的简单智能体(如 Alexa、Siri)得到了广泛应用,一些多智能体框架(如群体机器人 和 AutoGen)在解决特定领域内的复杂任务方面也取得了成功,但仍然缺乏能够在功能(例如,解决复杂任务)和适用性(例如,广泛的场景、模态和上下文)方面都取得高分的智能体系统。单靠生成式人工智能不足以创建有效和可持续的智能体系统,我们可以创建一个整体的生态系统,包括模拟用户偏好的模拟人(Sims)、用于交互和协调任务的助手和执行任务的智能体。
2025-01-23 23:52:33
881
原创 物理AI大时代,一场“视觉数据争夺赛”将上演
大摩认为,正如聊天机器人需要文本数据来训练大语言模型(LLM)一样,物理机器人需要数据来训练其视觉-语言-动作模型(VLA),预计随着算力规模不断扩展且效率提升,AI公司需要大量的视觉数据来创建物理世界的“数字孪生”,视觉数据将成为AI巨头们的竞争焦点。这意味着,当AI技术成熟后,视觉数据将成为极其宝贵的资源。大摩预计,随着算力规模不断扩展且效率提升,AI公司需要大量的视觉数据来创建物理世界的“数字孪生”,即通过高精度的视觉数据构建一个虚拟的物理世界模型,全球范围内将展开一场争夺光学数据的“光子竞赛”。
2025-01-23 23:51:15
414
原创 美的集团发文:拒绝表演式工作,严禁下班时间开会、形式主义加班
(除技术方案、财务通报、集团和事业群 / 部年会外。其他如用 PPT,要求白底黑色几行字一页以内)。
2025-01-23 23:48:32
143
原创 PyTorch博客 《使用 Triton 加速 2D 动态块量化 Float8 GEMM 简介》
2025年01月19日 23:14日本博客来源:https://pytorch.org/blog/accelerating-gemms-triton/ 这里做了翻译。这篇博客主要讲了如何用 Triton 来优化 Float8 格式的矩阵乘法(GEMM)运算。文章提出了一个叫 GridQuant 的方法,通过把大矩阵分成 256x256 的小块,然后再把每个小块分成更小的 32x32 的格子来处理数据。这种方法比之前的方案快了将近两倍。
2025-01-23 23:45:19
839
原创 简单聊聊Deepseek V3的FP8训练
写到结束天也快亮了,deepseek也是所知的第一家能训出fp8 loss的厂,还记得前两年讨论int8和fp8优劣的时候(那会还没有H100,没有fp8 tensorcore)记得看到知乎有个老哥留言,如果fp8训练成功走通的话。无缝衔接fp8推理一定会很顺滑。那会还在想fp8训练遥遥无期。没想到一眨眼就有人能做到了。deepseek对训练fp8量化的观察和解决方法都很有启发,希望能看到fp8训练能继续大放异彩(这样我们搞量化的就能转业去fp8了吧。
2025-01-23 23:44:10
2865
1
原创 PyTorch 原生FP8训练进展
float8训练格式是由NVIDIA、ARM和Intel在2022年的一篇论文(https://arxiv.org/abs/2209.05433)中提出的,该论文证明了使用更低精度float8进行训练的可行性,且不会牺牲模型质量。随着NVIDIA Hopper系列等新型GPU的推出,由于原生float8张量核心支持,FP8训练变得可行,有望实现超过2倍的训练吞吐量提升。实现这一承诺面临一些挑战:(i) 在float8中启用核心模型操作如matmul和attention, (ii) 在分布式框架中启用。
2025-01-23 23:42:28
996
原创 SwiftKV:让大模型推理更快、吞吐量更大!
论文作者发现,通常情况下,提示词的长度远大于生成内容的长度,平均约为生成内容的10倍(的确如此,大多数开发者都是把文档一股脑全都丢给大模型)。但推理的成本和速度决定了它们的实用性。核心思想:在 Transformer 模型中,较深层的隐藏状态(hidden states)变化较小,因此可以利用较早层的输出来为后续层填充 KV 缓存,从而跳过后续层的计算。格知致能点评:针对特定的应用场景,对模型进行特定的优化,并且还不影响模型的性能,这是一个技术活,也可能是做大模型垂直行业落地的企业的价值和核心竞争力吧。
2025-01-23 23:41:11
511
原创 震撼!首个开源的交互式全模态大语言模型,GPT-4o realtime的开源实现。
VITA-1.5 是一款开源的交互式多模态大型语言模型,实现接近实时的视觉和语音交互体验。相较于之前的VITA-1.0版本,VITA-1.5 在多个方面取得了显著进步。VITA-1.5 还采用了渐进式训练策略,确保在加入语音模态时,对其他多模态性能的影响最小化。该模型。
2025-01-23 23:40:35
500
原创 U net的编码器(下采样路径) 和 解码器(上采样路径)架构 和transformer中的encoder decoder的区别和联系是什么
架构与 Transformer 的编码器-解码器架构在设计目标和实现方式上有明显的区别,但它们在。这两种架构在深度学习中的广泛应用,反映了编码器-解码器设计的通用性和灵活性。上具有一定的相似性。以下是两者在架构、功能和实现上的详细区别和联系。通道数(Feature Maps。像素级预测(如图像分割)。编码器提取的高层次特征。与输入图像相同的分辨率。进一步整合来自跳跃连接。编码器(下采样路径)序列中所有位置的特征。特征独立地进行非线性。
2024-12-24 21:33:45
1186
原创 快速学会一个算法,UNet
原创 程序员小寒 程序员学长 2024年12月18日 23:28 北京今天给大家分享一个强大的算法模型,U-NetU-Net 是一种广泛应用于图像分割任务的卷积神经网络(CNN)架构,最初由 Olaf Ronneberger 等人在 2015 年为生物医学图像分割而提出。由于其出色的性能和灵活性,U-Net 现已广泛应用于各种图像分割领域,如医学影像分析、遥感图像处理等。U-Net 的核心思想是通过对称的编码器-解码器结构,实现对输入图像的高效特征提取和精确的像素级分割。UNet的架构由两部分组成:收缩路径
2024-12-24 21:31:32
613
原创 深度|黄仁勋对话埃森哲CEO:仅用AI削减成本无法带来增长,应对AI企业应重塑业务与战略
如果有人告诉我有一天我会回到这里,站在这个舞台上,看到印尼推出这个令人惊叹的AI Day、这个令人激动的活动,并且我能成为其中的一部分,也是梦想成真了。我们是合作伙伴,记得在第一次会议上,Jensen站在白板前,我们一起规划了埃森哲如何在这项惊人的技术基础上进行拓展,建立所谓的“人工智能精炼厂”。更重要的是,我们必须持续投入教育,帮助员工和国家为未来做好准备,成为AI时代的赢家。我们和英伟达的工程师们共同合作,确保能够从强大的基础设施和模型出发,最终转化为实际的成果,推动人们、企业和政府的变革。
2024-12-24 21:26:19
639
原创 ZPedia丨2024年11月AI产品榜单,Kimi登顶国内总榜,豆包狂追不止,Kling AI连续2月大跌
数据声明:本榜单数据基于网络公开数据,数据或因为分类、收录问题存在不完整、不全面的问题。数据不代表对于上榜产品的任何评价,亦不作为任何投资、求职的建议,请谨慎使用。MyMap AI是一个将文本想法转化为视觉内容(如思维导图和演示文稿)的工具,通过简单的聊天界面操作,非常适合没有设计技能的学生、教师和专业人士。11月,MyMap AI单月访问量增长达93%,领跑出海产品,访问量约162万次。跃问是阶跃星辰推出的一款多模态大模型,产品定位是个人效率助手,提供信息查询、语言学习、创意写作、图文解读等服务。
2024-12-24 21:25:17
743
原创 速递|字节TikTok算法负责人陈志杰被曝离职创业,已有超18位字节系离职AI创业- AI编程
根Linkedin显示,他于2022年4月正式加入字节跳动,职位是高级技术总监,主要负责TikTok的推荐算法团队和数据科学团队。离职后,新项目也是AI Coding方向,对标Cursor,已获得多家顶级美元机构的投资,估值近亿美元。值得注意的是,明超平此前也是字节系剪映的产品经理。国内创业团队面临的是比海外更加严峻的挑战,国内市场需要与互联网大厂、AI大厂、大模型公司等竞争。知情人士称,陈志杰创业的方向为AI Coding方向,目前已经在陆续接触投资人。Z Finance根据公开信息整理。
2024-12-24 21:22:49
653
原创 Time-LLM----可预测未来值
从本人实际运行来看,这个模型比较吃配置,以我上面给出的部分代码参数设置(推荐使用GPT2,会快一点并且不用搞其它东西)为例,运行7000多条的数据,迭代一次需要10分钟左右(本人笔记本电脑13900HX+4060),内存吃了17G多,专用显存和共享显存一共吃了18G多。Time-LLM的核心理念是“重新编程”(reprogramming):将时间序列数据转化为适合语言模型处理的形式,从而使其无需改变预训练的模型结构即可用于预测任务。此外,大部分传统模型需要大量的训练数据,在数据稀缺的场景中效果有限。
2024-12-24 21:12:18
951
原创 峰瑞资本李罡:具身智能前程远大,但每个“人”奔跑在曲折道路上
首先,机器人会在桌面等显而易见的地方寻找苹果,若未找到,将进一步推理苹果可能在冰箱中,并执行“打开冰箱,找到并拿取苹果”的操作。就硬件而言,目前市面上主要外形有类人形、四足或轮式结构,上肢通常采用六到七自由度的双臂,但末端执行器设计差异较大,有高自由度的灵巧手、中等自由度的灵巧手、三指手或夹爪等形式,以满足不同任务需求。就李罡而言,这一两年,他首先关注的是软硬件结合的公司,其次是做核心传感器的公司,最后关注的是垂直场景的企业。人才密度指的是在一个规模不大的团队中,大部人的核心能力都是比较强的。
2024-11-30 21:33:10
715
原创 快速使用库卡机器人系统U盘
合肥西蒙机器人科技有限公司成立于2022年9月,专注于提供先进的工业机器人技术服务。公司拥有一支专业的技术团队,具备丰富的经验和深厚的技术积累,能够为各行各业的企业提供定制化的机器人集成、维护和培训服务。3)弹出U盘,关闭机器人,将U盘插入到机器人控制柜,开机,等待系统工作。3)弹出U盘,关闭机器人,将U盘插入到机器人控制柜,开机,等待系统工作。4)当机器人关机后(示教器熄屏),拔出U盘,开启机器人。4)当机器人关机后(示教器熄屏),拔出U盘,开启机器人。1)点击配置-自动模式-创建磁盘映像-U盘-OK。
2024-11-30 21:31:14
1383
原创 这家帮你叠衣服打扫卫生的机器人公司,估值20亿美金|黑智编译
少数能够看到和抓取物体的工业机器人,由于并不具备物理世界知识,只能做有限的事情,且灵巧性有限。然而,Hausman表示,算法并非完美无瑕,就如同现代聊天机器人一样,偶尔也会有令人意外甚至有趣的失误,比如在放鸡蛋进盒子时装得过满,或者将一个纸箱甩下桌子而不是装填物品。”Levine说道。就此,打造具备更广泛能力的机器人不再仅仅只局限于科幻小说中的常见主题,更是成为了一个蕴含无限商机的崭新领域。员于今年早些时候成立,致力于将AI语言模型的成功经验推广到机器人领域,以打造具备更强通用能力的机器人。
2024-11-30 21:27:39
857
原创 一个人形机器人就是一个生产队,美国回流制造业先打高端局|CyberRobo
Argon One 是世界上第一个专为制造业和工程而生的人形机器人,目前是上半身形态,中间黑色部分像其脊椎,增加灵活性,完全AI驱动,类人感知和交互,模块化设计,并配备了激光、铣削、雕刻和 3D 打印等多种工具功能,并配备两个精度为0.1毫米的机械臂,自动适应多个末端执行器,包括激光、P&P(Pick and Place,即拾放操作)以及其他15种工具,并且具备全面的视觉功能,以及可扩展的对象和零件库等性能。这将带来更高效、更灵活、更智能的精密制造模式,并推动高端制造业向个性化、小批量、智能化方向迈进,
2024-11-30 21:24:53
1064
原创 源于ETH实验项目 一年融资3000万 苏黎世这家公司推出第二代双足轮式安防机器人!
Alexander Grêt表示,公司采购的是初代Ascento Guard安防机器人,目前已经在公司工厂与停车场执行任务长达一年的时间,多台巡检安防机器人,组成了24小时无死角的监控网络,从而节省了大量的人力成本。此外,Grêt还提到,Swiss Securitas Group已经为制造业和物流领域的客户推出了多台Ascento Guard 2.0设备,从安装数量来讲,2024年我们部署的Ascento Guard数量增加了两倍,从最初的试点开始,它们现在已完全融入我们的安全运营中。
2024-11-30 21:22:22
881
原创 VIT里面的patch是怎么生成的,原理是什么
将图像划分为固定大小的 Patch(P×P将每个Patch 展平为 1D 向量。通过线性变换将1D 向量嵌入到 Transformer 的输入维度 DDD。这种方法的核心思想是将图像从 2D 表示转化为 1D 的序列表示,从而使 Transformer 模型能够处理图像数据。相比 CNN,ViT 的 Patch 生成更简单直接,但依赖于 Transformer 的全局建模能力。Patch 的大小和嵌入维度是 ViT 的关键超参数,会显著影响模型的性能和计算复杂度。为什么每一个patch是一个p。
2024-11-30 18:25:43
1049
原创 Attention计算过程
的完整公式为:点积计算相似度(Q 和 K 的点积),衡量 Query 和 Key 的匹配程度。缩放处理(Scale),避免数值不稳定。可选 Mask:在需要时屏蔽特定位置。Softmax:将相似度转换为注意力权重(概率分布)。加权求和(与 V 相乘),生成注意力输出。通过这个机制,模型可以动态地关注输入序列中与当前位置相关的信息,从而实现高效的特征提取和表示学习。点积(Dot Product)是两个向量之间的一种数学操作,用于衡量两个向量的相似性。
2024-11-30 18:10:34
1154
原创 多头注意力Attention中qkv分别是什么
Query (Q): 查询向量,用于表示当前要关注的信息。每个注意力头会根据输入序列生成自己的查询向量。Q 向量用于与K 向量进行相似度计算,以确定哪些值(V)应该被关注。Key (K): 键向量,代表输入序列中每个元素的特征。每个输入元素都有一个对应的 K 向量,Q 与 K 的相似度决定了该元素对当前查询的重要性。Value (V): 值向量,实际包含的信息。每个 K 向量都有一个对应的 V 向量,最终的输出是通过加权求和 V 向量得到的,其中权重由 Q 和 K 的相似度决定。
2024-11-30 17:56:59
2144
原创 能否详细解释一下Multi-head Attention中不同head的作用?
在 Multi-head Attention 中,每个注意力头都有自己的可学习投影矩阵,这些矩阵用于将输入的查询(Query)、键(Key)和值(Value)向量映射到不同的特征空间。查询向量 (Q): 通过线性变换 Q=XWQ键向量 (K): 通过线性变换 K=XWK值向量 (V): 通过线性变换 V=XWV其中,WQ,WK,WVWQ,WK,WV 是每个头独立的可学习权重矩阵,XX 是输入序列的嵌入表示。这些矩阵将输入数据投影到不同的子空间中,使得每个头能够学习到不同的特征表示135。
2024-11-30 17:48:23
961
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人