自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(623)
  • 收藏
  • 关注

原创 Agent Skills 入门:把“公司 SOP + 工具脚本”封装成可复用技能,让 Agent 真正在你团队里干活

Anthropic 在 2025-10-16 的工程文章里把这个问题抽象成一个清晰的答案:把“可复用的流程知识”打包成 Skill 文件夹,由 Agent 动态发现 + 按需加载,把通用模型变成贴合你工作方式的专用 Agent。当然,Skill 也可以用来扩展 Agent 的工具、MCP 使用边界,通过文档与脚本,也可以教会 Agent 连接并使用特定的外部工具、MCP 服务。Agent 可通过加载不同的 Skills 包,来具备不同的专业知识、工具使用能力,稳定完成特定任务。

2026-01-07 14:15:01 199

原创 智能体技能 (Agent Skills)实践

🧩 可扩展设计:技能数据结构模块化,提供如 SkillSchema 和 SkillContext 等实现,便于扩展与定制。🤖 自主执行能力:智能体可根据技能定义,自主分析、规划并决策需调用的脚本与资源。🔍 技能管理支持:支持批量加载技能,并能根据用户输入自动检索与发现相关技能。沙箱环境将根据技能声明的依赖项自动安装所需依赖,无需手动配置。这种方法在提供全面技能能力的同时,最大限度地减少资源消耗。该方式提供安全的执行环境,可有效防止对宿主系统造成潜在危害。提供的安全沙箱执行(自动安装依赖、实现环境隔离)

2026-01-06 15:17:00 252

原创 大模型skill理解与实践

每条结论一句话行动项结构化“”“读取并总结PDF文档”“”# … 后续总结逻辑何时使用用户上传了一份文档(PDF、Word等)并要求分析其内容。用户的问题需要结合特定文档内容和外部最新信息来回答。用户要求对复杂主题进行多步骤调研和分析。如何调用确保用户已提供待分析的文档文件。将用户的分析请求和文档路径(或文件)作为参数。端点请求体示例 (JSON):{"query": "请总结这份文档的核心观点,并查找2024年关于文中‘存算一体’技术的最新商业新闻。",

2026-01-05 17:50:07 989

原创 Linux下python matplotlib画图修改中文字体 (小方块)

在 Linux 环境下解决 matplotlib 绘图中文显示异常(乱码/方框)的问题,可通过以下步骤配置中文字体支持:完整解决方案。

2025-12-29 15:40:55 494

原创 paper阅读:Improving Language Understanding by Generative Pre-Training

公式L1U∑ilog⁡Pui∣ui−kui−1;Θ定义了无监督预训练阶段的语言模型目标函数,通过最大化每个词元在其前kkk个词元上下文条件下的对数概率之和,来训练神经网络模型Θ\ThetaΘ。这本质上是在最小化整个语料库的负对数似然,促使模型学习如何根据历史信息准确预测下一个词,从而捕获语言的内在结构和模式。

2025-12-18 11:30:26 924

原创 LLM底层秘密—Transformer原理解析

语言模型的发展经历了从 BERT、GPT 到今天的多模态大模型的快速演进。传统 Transformer 在处理长文本、关键信息检索以及对抗幻觉等任务时,常常因过度关注无关上下文而陷入困境,导致模型表现受限。为解决这些问题,研究人员提出了多种改进方案,如 DIFF Transformer、Energy-Based Transformer 等新型架构。Transformer、MoE 灵活搭配成为主流,也逐渐有加入等新兴架构做混合架构的尝试,据不完全统计,超过一半新发布模型采用混合架构。这种架构创新也许可以打破

2025-12-09 15:11:52 874

原创 CPU 基础

介绍完上述 CPU 的基本组件,我们由浅入深用一张现代 CPU 架构图作为本节内容的结尾。如下图所示的是一张英特尔酷睿 CPU 的架构图,从复杂的控制流程中,我们还是可以清晰的看到 ALU,MU 以及 CU 这些我们刚刚学习过的内容,当然读者朋友要是想设计这么一张架构图还是需要很多的知识储备的。

2025-12-08 17:00:27 867

原创 计算之比特位宽

在计算机科学中,整数和浮点数是两种基本的数据类型,它们在计算机中可以用不同长度的比特表示,也就是比特位宽,比特位宽决定了它们的表示范围和数据精度。下面我们一起回顾一下计算机中整数和浮点数的表示定义。

2025-12-04 14:30:29 838

原创 AI 芯片核心计算之矩阵乘

AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本节我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。

2025-12-04 10:03:09 1006

原创 AI 芯片关键设计指标

前面我们已经对 AI 的计算模式有了初步的认识,那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢?接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。

2025-12-03 10:06:08 905

原创 paper:attention is all you need附录Attention Visualizations 注意力可视化

图 3:一个例子展示了在编码器自注意力机制第 5 层(共 6 层)中,注意力机制如何关注长距离依赖关系。许多注意力头关注动词“making”的远距离依赖关系,从而完成短语“making. . .more difficult”。图 4:两个注意力头,位于 6 层中的第 5 层,显然参与了指代消解。顶部:注意力头 5 的完整注意力。底部:注意力头 5 和 6 中仅来自单词“its”的隔离注意力。我们在上面给出了两个这样的例子,来自第 5 层(共 6 层)编码器自注意力机制中的两个不同的头。

2025-12-02 11:54:07 298

原创 AI 计算模式(下)

了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本节将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。

2025-12-02 10:32:42 862

原创 AI 计算模式(上)

现在我们已经了解到了神经网络模型的一些特点,比如模型深度高,每层的通道多,这些都会导致训练好的模型权重数据内存较大,另外,训练时候为了加速模型的收敛和确保模型精度,一般都会采用高比特的数据类型,比如 FP32,这也会比硬件的计算资源带来很大的压力。**针对不同领域,如计算机视觉、语音、自然语言处理,AI 模型具有不同形式的设计,但是作为 AI 芯片,需要尽可能全的支持所有应用领域的模型,并且支持未来可能出现的新模型结构,这样在一个漫长的芯片设计到流片的周期中,才能降低研发成本,获得市场的认可。

2025-12-01 17:03:33 755

原创 什么是 AI 芯片

首先我们了解一下芯片是什么?芯片的本质就是在半导体衬底上制作能实现一系列特定功能的集成电路。在发现半导体之前,人类只能用机械控制电,而半导体却能直接“用电来控制电”。计算机是我们日常生活中常见的工具,可以通过数字形式存储古往今外的人类文明信息,计算机里任何复杂功能,还原到最底层都能用 0 和 1 解决,进而可以通过半导体开关的通断,绕过机械维度,直接去操控微观的电子来处理信息。通过芯片这个物理接口,创造了我们今天的数字世界,让人类进入到一半物质世界一半数字世界的新时代。

2025-12-01 14:44:46 965

原创 paper阅读:Attention Is All You Need 注意力是你所需要的一切

缩放点积注意力公式AttentionQKVsoftmaxQKTdkVAttentionQKVsoftmaxdk​​QKT​V是Transformer模型的核心组成部分,它通过计算查询与键的点积相似度,并进行适当缩放和 softmax 归一化,得到注意力权重,再将这些权重应用于值向量进行加权求和,从而高效地捕捉序列中的长距离依赖关系,并生成富有信息量的上下文表示。其缩放机制对于在大维度下稳定训练至关重要。

2025-11-28 16:01:13 586

原创 6.文本理解和生成大模型

首先来看下如何定义信息检索(IR)任务。给定一个queryqqq给定一个文档库D⋯di⋯D⋯di⋯IR系统计算相关系数得分fqdif(q,d_i)fqdi​,然后根据该得分进行排序一个典型的IR系统分为两个阶段:检索和重排阶段。在检索阶段,针对整个文档库,从中找到相关文档的子集,它重视的检索速度和相关文档的召回率;在重排序阶段针对上一步得到的少量文档进行精排,看重的是性能和效果。神经网络IR。

2025-11-21 17:46:41 1060

原创 5.高效训练&模型压缩

比较一下这三个阶段的显存占比:在第1阶段中,每张显卡只需要处理一部分的模型梯度,优化器降低到了原来的显卡数分之一,同时把中间结果的量也降低到原来的卡数分之一;第2阶段中,进一步地把模型的梯度划分提前,把Reduce Scatter提前到了反向传播的过程中,实际上不需要保留完整的梯度。第3阶段中,进一步地划分参数。通过这三部分的优化,显卡上的四大组成部分:参数、梯度、优化器和中间结果都得到了划分,每张显卡只需要保持自己的那部分参数。本小节介绍BMTrain性能上的提升。

2025-11-21 17:34:14 543

原创 4.Prompt Tuning & Delta Tuning

使用encoder作为PLMs的基本编码器Fine-tuning为特定任务添加额外的神经网络微调所有参数pre-training和fine-tuning之间存在差距。pre-training以mask的方式进行训练,而fine-tuning以QA的方式进行微调,存在差距。delta tuning在超大规模的模型上非常高效它的结构随着模型的增加变得越发不重要干净:不需要编辑backonePTM的代码。简单:从全模型tuning迁移到delta-tuning只需要3行代码。

2025-11-21 16:40:45 852

原创 3.Transformer基础

给定一个query向量和一组value向量,注意力技术根据query计算值的加权和根据查询,加权和是值的选择性汇总。可以通过注意机制获得任意一组表征的固定大小的表征。如果存在value向量h1h2hN∈Rd1h1​h2​hN​∈Rd1​,query向量s∈Rd2s∈Rd2​根据注意力分数e∈RNe∈RN,计算得到注意力输出o∈Rd1o∈Rd1​αsoftmax⁡e∈RNαsoftmax。

2025-11-21 11:59:07 984

原创 2.神经网络基础

人工神经网络:灵感来自于大脑中的生物神经网络神经元是一个具有输入和一个输出和参数wb的计算单元hwb​xfwTxb。

2025-11-20 14:44:59 1167

原创 【无标题】

原名:Imitation Game采用一种行为注意的手段,尝试定义人工智能是不是具备人类智能的水平。

2025-11-19 16:34:30 544

原创 深入理解AI Agent的“灵魂”:上下文工程(Context Engineering)

然而,业内的共识是:多数AI Agent的失败,并非模型能力的失败,而是上下文工程(Context Engineering)的失败。我们的工作重心,正不可逆转地从“如何找到那句完美的提示词”,转向“如何设计一个能够为模型在每一步都动态组装出完美上下文的、健壮可靠的系统”。归根结底,请记住:无论是精巧的提示词、强大的RAG,还是标准化的MCP,它们都指向同一个目标——在模型做出决策之前,为它准备好一份恰到好处的上下文。这类上下文的核心功能是告诉模型能做什么以及做了之后的结果,赋予模型与外部世界交互的能力。

2025-11-10 17:13:36 352

原创 上下文工程 (Context Engineering)

在本文中,我们通过回顾各种流行的智能体和论文,剖析了一些常见的上下文工程策略——写入(write)、选择(select)、压缩(compress)和隔离(isolate)。我们将常见的智能体上下文工程策略分为四个类别——写入(write)、选择(select)、压缩(compress)和隔离(isolate)——并通过回顾一些流行的智能体产品和论文来给出每个类别的示例。模式的一个字段(例如,messages)可以在智能体的每个回合暴露给 LLM,但该模式可以将信息隔离在其他字段中,以供更有选择性地使用。

2025-11-10 16:29:58 863

原创 大模型之bert

2025-11-10 15:46:20 251

原创 大模型之思维链(cot)

思维链(CoT)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt(左)与链式思维提示过程(右)的比较。思维链的主要思想是通过向大语言模型展示一些少量的 exemplars,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。

2025-11-07 11:41:38 1071

原创 大模型之langchain

LangChain Agent 是框架中驱动决策制定的实体。它可以访问一组工具,并可以根据用户的输入决定调用哪个工具。代理帮助构建复杂的应用程序,这些应用程序需要自适应和特定于上下文的响应。当存在取决于用户输入和其他因素的未知交互链时,它们特别有用。LangChain model 是一种抽象,表示框架中使用的不同类型的模型。LLM(大型语言模型):这些模型将文本字符串作为输入并返回文本字符串作为输出。它们是许多语言模型应用程序的支柱。聊天模型( Chat Model)

2025-11-07 11:36:09 1028

原创 大模型之幻觉来源与缓解

本文主要从幻觉类型、幻觉检测、幻觉来源和缓解这四个方面进行论述。

2025-11-07 11:24:10 934

原创 大模型之大模型评测

这两种方法在评测语言模型和机器翻译等任务时起着重要的作用。自动评测方法基于计算机算法和自动生成的指标,能够快速且高效地评测模型的性能。而人工评测则侧重于人类专家的主观判断和质量评测,能够提供更深入、细致的分析和意见。了解和掌握这两种评测方法对准确评测和改进语言模型的能力十分重要。

2025-11-07 11:11:01 307

原创 大模型之大模型幻觉

在语言模型的背景下,幻觉指的是:看似流畅自然的表述,实则不符合事实或者是错误的。幻觉现象的存在严重影响LLM应用的可靠性,本文将探讨大型语言模型(LLMs)的幻觉问题,以及解决幻觉现象的一些常见方法。

2025-11-07 11:00:59 955

原创 大模型之检索增强llm

检索增强 LLM ( Retrieval Augmented LLM ),简单来说,就是给 LLM 提供外部数据库,对于用户问题 ( Query ),通过一些信息检索 ( Information Retrieval, IR ) 的技术,先从外部数据库中检索出和用户问题相关的信息,然后让 LLM 结合这些相关信息来生成结果。下图是一个检索增强 LLM 的简单示意图。OpenAI 研究科学家 Andrej Karpathy 前段时间在微软 Build 2023 大会上做过一场关于 GPT 模型现状的分享。

2025-11-07 10:45:25 722

原创 大模型agent技术

现在全球对Agent的关注也是非常狂热的,几个月前,OpenAI 在内部就开始高度关注智能体(Agent)领域,Deep Mind的联合创始人最近也提到下一代 AI 技术走向并非是生成性 AI,而应该是交互性 AI。这种交互性 AI 在很大程度上类似提到的智能体,用户要求完成各种任务,智能体则可以对软件进行操作或者与人进行协作,完成相关的工作。

2025-11-06 17:58:17 743

原创 大模型之rag(检索增强生成)技术

简单来说,。下图是一个检索增强 LLM 的简单示意图。传统的信息检索工具,比如 Google/Bing 这样的搜索引擎,只有检索能力 (),现在 LLM 通过预训练过程,将海量数据和知识嵌入到其巨大的模型参数中,具有记忆能力 (从这个角度看,检索增强 LLM 处于中间,将 LLM 和传统的信息检索相结合,通过一些信息检索技术将相关信息加载到 LLM 的工作内存 () 中,即 LLM 的上下文窗口 (),亦即 LLM 单次生成时能接受的最大文本输入。

2025-11-06 14:50:30 843

原创 大模型之近端策略优化(ppo)

PPO其实就是避免在使用重要性采样时由于在θθθ下的pθat∣stpθ​at​∣st​与在θ′θ′θ′下的pθ′at∣stpθ′​at​∣st​差太多,导致重要性采样结果偏差较大而采取的算法。具体来说就是在训练的过程中增加一个限制,这个限制对应着θθθ和θ′θ′θ′输出的动作的 KL 散度,来衡量θθθ与θ′θ′θ′的相似程度。

2025-11-04 16:54:51 710

原创 大模型之策略梯度(pg)

演员(actor)环境和奖励函数。其中环境和奖励函数不是我们可以控制的,在开始学习之前就已经事先给定。演员里会有一个策略,它用来决定演员的动作。策略就是给定一个外界输入,它会输出演员现在应该要执行的动作。唯一可以做的就是调整演员里面的策略,使得演员可以得到最大的奖励。将深度学习与强化学习相结合时,策略πππ就是一个网络,用θθθ表示πππ的参数。举上面幻境的例子,输入就是当前分身所在的分叉路口,假设可以向上,向下,向左走,经过策略网络后,输出就是三个动作可以选择的概率。

2025-11-04 15:20:01 736

原创 大模型RLHF:PPO原理与源码解读

智能体(Agent)与环境(Environment)强化学习中两个实体的交互:状态空间S:S即为State,指环境中所有可能状态的集合动作空间A:A即为Action,指智能体所有可能动作的集合奖励R**:** R即为Reward,指智能体在环境的某一状态下所获得的奖励。以上图为例,智能体与环境的交互过程如下:在t时刻,环境的状态为StS_{t}St​,达到这一状态所获得的奖励为RtR_{t}Rt​智能体观测到StS_{t}St​与RtR_{t}Rt​,采取相应动作。

2025-11-03 18:06:19 980

原创 大模型之DPO

基于人类反馈的强化学习(RLHF)是一个复杂且不稳定的过程,拟合一个反映人类偏好的奖励模型,然后使用强化学习对大语言模型进行微调,以最大限度地提高估计奖励,同时又不能偏离原始模型太远。这涉及训练多个 LM,并在训练循环中从 LM 采样,从而产生大量的计算成本。本文作者提出了直接偏好优化(DPO)算法,它稳定、高效且计算量轻,无需拟合奖励模型,也无需在微调期间从LM采样或执行显著的超参数调整。实验表明,DPO 可以微调 LMs,使其与人类偏好保持一致,与现有方法一样或更好。

2025-11-03 17:48:35 994

原创 大模型之强化学习

AI大模型面试圣经大模型开发者宝藏Dify高效AI工作流智能体强化学习包含环境、动作和奖励3部分,其本质是智能体通过与环境的交互,使其做出的动作对应的决策得到的总奖励最大,或者说是期望最大。首先强化学习和无监督学习是不需要有标签样本的,而监督学习需要许多有标签样本来进行模型的构建和训练。其次对于强化学习与无监督学习,无监督学习直接基于给定的数据进行建模,寻找数据或特征中隐藏的结构,一般对应聚类问题;强化学习需要通过延迟奖励学习策略来得到模型与目标的距离,这个距离可以通过奖励函数进行定量判断,这里我们可以

2025-11-03 17:40:20 841

原创 大模型之强化学习-rlhf相关

强化学习(Reinforcement Learning,RL)研究的问题是智能体(Agent)与环境(Environment)交互的问题,其目标是使智能体在复杂且不确定的环境中最大化奖励(Reward)。强化学习基本框 架如图所示,主要由两部分组成:智能体和环境。在强化学习过程中,智能体与环境不断交互。智能体在环境中获取某个状态后,会根据该状态输出一个动作(Action),也称为决策(Decision)。动作会在环境中执行,环境会根据智能体采取的动作,给出下一个状态以及当前动作所带来的奖 励。

2025-11-03 17:29:54 720

原创 大模型之faster_transformer

是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。使用此模块,您可以运行编码器-解码器架构模型(如:T5)、仅编码器架构模型(如:BERT)和仅解码器架构模型(如: GPT)的推理。FT框架是用C++/CUDA编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,这使您可以在 GPU 上进行快速的 Transformer 推理。

2025-11-03 17:15:17 916

原创 大模型之Text Generation Inference(TGI)

Text Generation Inference(TGI)是 HuggingFace 推出的一个项目,作为支持 HuggingFace Inference API 和 Hugging Chat 上的LLM 推理的工具,旨在支持大型语言模型的优化推理。

2025-11-03 16:56:58 812

时间序列异常检测相关代码

时间序列异常检测代码

2024-10-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除