自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 模型微调Fine-tuning

prompt中包含 一个给定的Instruction,具体Input,希望模型返回一个output,传给模型但模型无法识别用户意图,返回预想结果。因此,引出Few-shot。提前给定一些例子,再传给模型。

2025-07-01 20:45:57 142

原创 Attention is all you need 论文解读及Transformer架构详解

1.基于RNN/CNN 2.使用编码器-解码器结构 3.使用注意力机制增强Transformer结构的创新:1.完全摒弃RNN/CNN 2.(仍然使用编码器-解码器构) 3.

2025-06-30 23:25:49 845

原创 3.Transformer Part1

根据来构造词库,在英语上可以包括subword、—est or —er (子模块)BRE分为两个部分语料库作为输入,从而学习词库(Vocabulary)基于学出来的语料库,对文本进行tokenizeeg: 将语料库中组合在一起,比如‘a’和‘c’一起出现次数最多,那生成新的token ‘ac',tips:一般会在单词后面加个下划线 ’___‘ ,表示该单词结束。

2025-06-29 22:53:10 917

原创 2.Self-Attention

引入Masked Matrix作用:使Encoder、Decoder阶段计算方法相同,只是Masked Matrix参数不同。为了理解“Thinking”,要考虑自身以及Machines对单词的影响有多大——→提前定义矩阵W^q,W^k、W^v。此图展示为1层Encoder,经过多层Encoder输出最终的Z1,Z2。多个Self-Attention并行输出,把结果合并,输出多个计算结果。(x1,W^q)=q1,(x2,W^q)=q2,以此类推。,然后用SoftMax函数转化为。,Decoder只用看。

2025-06-29 19:33:41 272

原创 1.Transformer应用

训练大模型主要分为两个方向架构设计+训练架构复用+训练(市面上常用)!架构复用是目前。

2025-06-29 19:26:40 363

原创 关于智能体社会的了解

与此同时,其他智能体通过沟通和观察,利用 LLM 的推理归纳能力识别其中的含有潜在规范的信息,从而实现规范的传播。Creation & Representation(创造与表征)、Spreading(传播)、Evaluation(评估)和 Compliance(遵守)Spreading 模块:我们从沟通(communication)和观察(observation)这两个机制出发:智能体通过观察他人的行为,同时,智能体对规范的遵守行为会在交互中影响其他智能体,从而加强规范的传播。

2024-07-09 22:05:17 561

原创 AI Agent基础认识

人工智能体:AI Agent是一种超越简单文本生成的人工智能系统。它,使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之,Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。原理:总体框架由三个关键部分组成大脑主要由一个大型语言模型组成,不仅存储知识和记忆,还承担着信息处理和决策等功能,并可以呈现推理和规划的过程,能很好地应对未知任务。LLM充当agent大脑的角色感知模块的核心目的是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。

2024-07-09 22:03:39 1071

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除