猪琪绝不鸽-优快云博客

原创模型微调Fine-tuning

prompt中包含一个给定的Instruction，具体Input,希望模型返回一个output，传给模型但模型无法识别用户意图，返回预想结果。因此，引出Few-shot。提前给定一些例子，再传给模型。

2025-07-01 20:45:57 142

原创 Attention is all you need 论文解读及Transformer架构详解

1.基于RNN/CNN 2.使用编码器-解码器结构 3.使用注意力机制增强Transformer结构的创新:1.完全摒弃RNN/CNN 2.(仍然使用编码器-解码器构) 3.

2025-06-30 23:25:49 845

原创 3.Transformer Part1

根据来构造词库，在英语上可以包括subword、—est or —er (子模块)BRE分为两个部分语料库作为输入，从而学习词库（Vocabulary）基于学出来的语料库，对文本进行tokenizeeg: 将语料库中组合在一起，比如‘a’和‘c’一起出现次数最多，那生成新的token ‘ac'，tips:一般会在单词后面加个下划线 ’___‘ ，表示该单词结束。

2025-06-29 22:53:10 917

引入Masked Matrix作用：使Encoder、Decoder阶段计算方法相同，只是Masked Matrix参数不同。为了理解“Thinking”，要考虑自身以及Machines对单词的影响有多大——→提前定义矩阵W^q，W^k、W^v。此图展示为1层Encoder，经过多层Encoder输出最终的Z1，Z2。多个Self-Attention并行输出，把结果合并，输出多个计算结果。(x1,W^q)=q1,(x2,W^q)=q2,以此类推。，然后用SoftMax函数转化为。，Decoder只用看。

2025-06-29 19:33:41 272

原创 1.Transformer应用

训练大模型主要分为两个方向架构设计+训练架构复用+训练（市面上常用）!架构复用是目前。

2025-06-29 19:26:40 363

原创关于智能体社会的了解

与此同时，其他智能体通过沟通和观察，利用 LLM 的推理归纳能力识别其中的含有潜在规范的信息，从而实现规范的传播。Creation & Representation（创造与表征）、Spreading（传播）、Evaluation（评估）和 Compliance（遵守）Spreading 模块:我们从沟通（communication）和观察（observation）这两个机制出发：智能体通过观察他人的行为，同时，智能体对规范的遵守行为会在交互中影响其他智能体，从而加强规范的传播。

2024-07-09 22:05:17 561

原创 AI Agent基础认识

人工智能体：AI Agent是一种超越简单文本生成的人工智能系统。它，使其能够进行对话、执行任务、推理并展现一定程度的自主性。简而言之，Agent是一个具有复杂推理能力、记忆和执行任务手段的系统。原理：总体框架由三个关键部分组成大脑主要由一个大型语言模型组成，不仅存储知识和记忆，还承担着信息处理和决策等功能，并可以呈现推理和规划的过程，能很好地应对未知任务。LLM充当agent大脑的角色感知模块的核心目的是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。

2024-07-09 22:03:39 1071

weixin_52851668的博客