- 博客(18)
- 收藏
- 关注
原创 七、Agent+MCP:开发范式与“最佳”实践
传统的Agent架构往往会认为:而在有了MCP之后,往往会将Tool改为MCP,即:在传统的工具构建过程中,首先要将工具逻辑封装为函数,之后面向智能体构建提示(Prompt)主要用来介绍工具用处以及如何使用。而MCP的出现并没有改变上述工具构建的过程,它改变的是分发逻辑,对现有的工具(地图API,模型服务),提供了新的发布渠道,使得使用、构建新工具(复杂软件,专业工具)的难度降低。
2025-12-24 17:29:48
799
原创 三、Agent原理与最简实践学习笔记
根据之前的学习,我们知道了Agent的许多定义,这一章我们总结一个本质公式:大模型+记忆+工具=Agent与传统的程序相比,Agent具备下面的特征:自主性:无需人工干预即可独立运行。反应性:能对环境变化做出实时响应。主动性:主动追求目标而非被动响应。社会性:能与其他Agent或人类进行交互。接下来介绍一些主流的Agent架构:(1) ReAct(推理+行动)ReAct将思考和行动融合在每个步骤中,通过观察-思考-行动的循环实现决策,适合需要实时响应的动态任务。
2025-12-19 22:02:18
917
原创 二、Agent应用开发与落地全景学习笔记
当前Agent还处于发展阶段,业内还没有一个明确的共识。主流架构有工作流和自主智能体两个方向,这两种架构均有自己适用的场景,另外这两种架构之间也有一些相通的部分。
2025-12-17 09:50:43
830
原创 HappyLLM task11 动手搭建大模型
首先我们需要定义一些超参数,这些超参数中要包括模型的大小、层数、头数、词嵌入维度、隐藏层维度等。这些超参数都可以根据实际情况进行调节。在这里我们自定义一个ModelConfig类,用来存储和记录超参数,这里我们继承了PretrainedConfig类,这个是transformers库中的参数类,通过继承这个类可以方便使用transformers库中的一些功能,也方便后续导出Hugging Face模型。self,dim: int = 768, # 模型维度。
2025-12-16 10:59:57
838
原创 HappyLLM task10 大语言模型
LLM,即Large Language Model,中文名为大语言模型,是一种相较传统语言模型参数更多、在更大规模语料上进行预训练的语言模型。LLM使用与传统预训练语言模型相似的架构与预训练任务(如Decoder-Only架构与CLM预训练任务),但拥有更庞大的参数、在更海量的语料上进行预训练,也从而展现出与传统预训练语言模型截然不同的能力。一般来说,LLM指包含数百亿(或更多)参数的语言模型,他们往往在数T token语料上通过多卡分布式集群进行预训练,具备远超出传统预训练模型的文本理解与生成能力。
2025-11-28 19:46:51
829
原创 HappyLLM task09 Decoder-Only PLM
LLaMA模型是由Meta开发的一系列大型预训练语言模型。展示了大规模预训练语言模型的演进及其在实际应用中的显著潜力。
2025-11-21 17:11:12
1029
原创 HappyLLM task08 Decoder-Only PLM
在之前的两章中,分别讲解了由Transformer发展来的两种模型架构,Encoder-Only的BERT、Encoder-Decoder的T5。除此之外,还有一种Decoder-Only模型。Decoder-Only是目前LLM主流的架构,目前所有的LLM基本都是Decoder-Only模型(RWKV、Mamba等非Transformer架构除外)。而ChatGPT正是这一架构的代表。
2025-11-20 19:30:04
626
原创 HappyLLM task07 Encoder-Decoder PLM
上一节中以BERT为例,讲解了Encoder-Only结构的模型,包括模型架构、预训练任务和下游任务微调。为了解决BERT的MLM任务和下游任务微调的不一致性,以及无法处理超过模型训练长度的输入这些问题。提出了Encoder-Decoder模型,通过引入Decoder部分来解决这些问题。
2025-11-20 16:46:44
858
原创 HappyLLM Task06 Encoder-only PLM
BERT是由Google团队在2018年发布的预训练语言模型。自BERT推出以来,预训练+微调的模式开始成为自然语言处理任务的主流。
2025-11-19 21:17:24
829
原创 HappyLLM Task05 搭建一个 Transformer
正如前面所提到的,NLP任务中,往往需要把自然语言的输入转化为机器可以处理的向量。在深度学习中,实现这个任务的就是Embedding层。Embedding层其实是一个存储固定大小的词典的嵌入向量查找表。即在输入神经网络之前,往往会先通过分词器来将自然语言tokenizer,分词器的作用是把自然语言输入切分成token并转化成一个固定的index。在实际应用中,tokenizer可能会有更复杂的情况。例如,切分成词、切分成子词、切分成字符等。
2025-11-15 18:48:01
850
原创 HappyLLM Task04 Encoder-Decoder
Task03中我们详细介绍了Transformer的核心-注意力机制。在Transformer中,使用注意力机制的是两个核心组件-Encoder(编码器)和Decoder(解码器)。后续基于Transformer的预训练语言模型基本都是对Encoder和Decoder部分进行改进,比如Encoder-only的BERT,Decoder-only的GPT等。下面解析Encoder-Decoder结构。
2025-11-14 18:57:14
638
原创 HappyLLM Task03 注意力机制
当我们有一篇新闻报道,我们想要找到这个报道的时间,那么,我们的 Query 可以是类似于“时间”、“日期”一类的向量(为了便于理解,此处使用文本来表示,但其实际是稠密的向量),Key 和 Value 会是整个文本。根据上面的分析,注意力机制的本质就是对两段序列的元素依次进行相似度计算,寻找出一个序列的每个元素对另一个序列的每一个元素的相关度,然后根据相关度加权,即分配注意力。但是,当Q是一个包含多个K的概念时,我们不能直接将Q与K进行对应,因此可以选择将K对应的V进行组合得到最终的V。
2025-11-12 20:58:10
823
原创 HappyLLM Task02 NLP基础概念
目的是生成一段简洁准确的摘要,来概括原文的主要内容。根据生成方式可以分为,抽取式摘要和生成式摘要。抽取式摘要:直接从原文选取关键句子或短语,优点是准确性高,但可能不够流畅。生成式摘要:不仅选取文本片段,还要重新组织和改写,并生成新内容。如基于注意力机制的序列到序列模型(Seq2Seq)。
2025-11-11 20:28:57
639
原创 STA-GCN代码复现简述
之后在运行的时候可能会出现torch以及torchlight版本不一致导致的报错,可能还需要对这几个版本进行调整,下面给出笔者的环境版本以供参考。这个代码主要使用的数据集是NTU RGB+D 60和NTU RGB+D 120这两个共有数据集,可以到下面这个地址去下载数据集。代码中给出了环境配置的文件requirements.txt,我们可以运行下面这行命令来进行相关环境的安装。下面以NTU RGB+D 60 cross subject为例来展示训练和测试的命令。要整合不同模态的结果,运行下面的命令。
2025-04-09 08:56:36
946
2
原创 SaPR-GCN论文浅析
本工作提出基于解剖学先验的动态部位划分方法,将人体骨架拆解为头部、躯干、四肢等8个语义部位,通过可学习的部位内与跨部位关系建模(M1 和M2) 重构细粒度关节拓扑结构。该方法利用全局掩码和部位-关节映射动态增强关键连接(如手部与头部的交互权重),同时抑制冗余关联。
2025-03-21 09:19:51
1477
原创 MST-GCN论文浅析
传统图卷积是局部操作,在空间维度上主要利用短距离关节依赖,难以直接建模对区分动作至关重要的远距离关节关系。例如,不同动作需要不同身体部位的协调,像 “行走” 需全身协调保持平衡,“挥手” 仅需手部动作,识别这些动作需要捕获不同范围关节间的依赖关系,但现有方法在这方面存在欠缺。
2025-03-13 15:28:24
993
原创 MAN论文浅析
针对 SISR 任务中低分辨率(LR)图像对应无数潜在高分辨率(HR)图像导致难以寻找 LR 和 HR 像素正确相关性的病态问题,探索如何有效利用先验和图像内信息,提高模型重建的准确性,以更好地还原图像的高频信息。在提升模型性能的同时,避免因采用大规模数据集训练、复杂网络拓扑或深度扩展等方式带来的过高计算成本和训练负担。克服现有注意力机制无法同时获取局部信息和长距离依赖,且多在固定感受野下考虑注意力图的局限性。
2025-01-07 15:12:01
1803
原创 2S-AGCN论文浅析
2)GCN的结构是分层的且不同层包含多级语义信息,但是ST-GCN中的图拓扑结构是固定的,缺乏灵活性和对包含在所有层中的多级语义信息建模的能力。2)在时间维度上,两个相邻帧之间的对应关节用时间边连接(图 1 左侧的蓝线)。1)ST-GCN采用的骨骼图是启发式预定义的,且仅表示人体的物理结构,很难捕获诸如双手之间的依赖关系。1)在空间维度上,关节表示为顶点,它们在人体中的自然连接表示为空间边(图 1 左侧的橙色线条)。1)目前基于GCN的拓扑结构是手动设置的,且在所有层和输入样本上是固定的。
2024-11-09 17:21:26
1957
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅