AI 技术原理与应用场景
文章平均质量分 94
记录 AI 技术的实现原理和 AI 技术的应用场景
范桂飓
AWS Global Community Hero,EdgeGallery 开源社区架构组副主席及秘书处成员,跑步与自行车运动爱好者。
- 2016 年度十大博客之星得主
- 2021 年度十大博客之星得主
- 2022 年度博客新星评委
- 2023 年度博客之星评委
- 2024 年度博客之星评委
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大模型训练基本概念
海量、多样化的无标注文本数据,规模通常达到万亿 tokens 级别(如 GPT-3 训练数据约 45TB 文本),涵盖书籍、网页、论文、新闻等,确保模型接触到广泛的语言现象和知识。即:大预言模型的 Loss(损失函数)值与模型参数量(N)、训练数据量(D)、计算资源量(C)这 3 者之间存在着稳定且可预测的数学关系。简而言之,Scaling Laws 证明了随着 N、D、C 的增加,LLM 的性能会持续改善,而且在相当长的发展阶段内没有明显的天花板效应。是后续所有优化的基础,是大模型能力的 “源头”。原创 2026-01-05 16:37:58 · 263 阅读 · 0 评论 -
GPU 性能分析工具综述
在 nv-hostengine 和 GPU Driver 的追踪(Tracing)方面,以秒为单位,nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标,包括:SM 利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等。最后,还实现了 CPU 和 GPU 两端事件的统一聚合与同步,两者通过高效的内核态 ring buffer 进行合并与关联,确保追踪过程中数据和时间戳的一致性和低延迟。具有非常低性能开销,并且是完全无侵入的。原创 2026-01-04 17:02:19 · 411 阅读 · 0 评论 -
人工智能发展史 — RNN/LSTM/Transformer/ViT 序列模型发展历程
2020年10月22日,Google团队发表An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale,提出了Vision Transformer(ViT),虽然不是第一篇将Transformer应用在视觉任务的论文,但是因为其模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域应用的里程碑著作,也引爆了后续相关研究。引起了全球学术界和工业界的大语言模型热潮。原创 2025-12-11 21:13:49 · 932 阅读 · 0 评论 -
使用 Nsight Compute 来优化 CUDA 程序性能
以秒为单位,nv-hostengine 与 GPU Driver 接口交互用于收集 GPU 的指标,包括:计算利用率、内存利用率、温度、功耗、时钟速度、ECC 内存错误、PCIe 吞吐量、NVLink 吞吐量等,具有非常低的开销。Nsight Compute 广泛地对 GPU 硬件性能计数器进行数据采集,ncu 使用了 CUPTI 的 Event API、Metric API 和 CUDA Profiling API 来计算 GPU 所执行的指令、内存事务、warp 占用率等事件。原创 2025-12-11 12:22:07 · 1033 阅读 · 0 评论 -
大模型预训练分布式并行技术(DP/PP/TP/EP/SP)基本原理
但是对于比较小的模型,或者细粒度的 MoE 模型,其矩阵乘法的 Shape 本身比较小,TP 切分后对算术强度的影响比较大,会导致吞吐的明显下降,无法充分发挥 GPU 的性能,因此在细粒度 MoE 模型的专家部分比较少采用 TP 并行。每块 GPU 执行 all-reduce 操作,收集所有 GPU 中的 local-gradient 梯度结果,然后进行求和求平均(归约)后得到一次迭代计算最终的有效 global-gradient,最后再同步到所有的 GPU 上并进行 Weights 权重参数的更新。原创 2025-11-20 15:00:33 · 769 阅读 · 0 评论 -
MPI 分布式并行计算通讯库技术
如果说 MPI 进程是一个计算概念,那么 MPI 进程组就是一个通信概念,表示若干个能够进行跨节点间 MPI 通信的一组 MPI 进程。关卡),在并行计算中,需要在最后将所有并行计算的子结果进行汇总,而快的进程就会在 Barrier 分界线上等待慢的进程完成计算,直到所有进程都完成了计算之后在进行下一步操作,所以也称之为同步等待。:用于描述 MPI 进程之间的通信范围,也称之为通信域,同时还记录了 MPI 进程组内或组外的 MPI 进程之间的通信拓扑和通信信息。将一个进程的数据分散到多个进程中。原创 2025-11-16 19:53:47 · 1130 阅读 · 0 评论 -
PerfTracker 论文解析与实践
PerfTracker 会展示所有对任务性能有一定影响的函数的性能报告,并指示是否有性能异常。不同类型的函数会按如下分类进行展示,具体见官方文档。将汇总后的数据,分别交由不同类别 extractor 解析,计算出函数对应 bottleneck 值,将汇总后数据写入汇总后文件。传统的 LMT 性能诊断有 “在线监控” 和 “离线剖析” 这 2 种方式,但这两种方法在 LLM 场景中都不理想。100 微秒精度的 GPU、NVLink、PCIe、DRAM 等硬件的各种指标监控信息。原创 2025-11-05 12:09:56 · 836 阅读 · 0 评论 -
智能体 MCP 协议技术原理与应用实践
定义:是一个独立的、轻量的、作为 MCP Client 的服务器程序,同时也作为外部系统的前端程序,为 LLM 提供数据访问、工具执行和服务调用的能力。目前有多个开源库或网站提供了托管的 MCP 工具资源,用于增强 LLM 和 Agent 的能力,确保其生成响应的可靠性。Prompts 是 MCP Server 为 Resources、Tools 或特定使用场景所提供的提示词模板,支持参数化渲染和复用,帮助 LLM 生成特定类型的响应,例如:可以设计成多步骤的逻辑链,引导用户完成复杂的任务。原创 2025-10-15 11:31:58 · 858 阅读 · 0 评论 -
LangChain Agent Tooling 技术原理与 Workflow 编程实例
更多的,我们需要自定义大量的 Tools。LangChain 也提供了简介的 @tool 语法糖来简化开发的复杂度。下面以自定义的从 OpenWeather API 获取实时天气数据工具为例。import os"""查询即时天气函数:param local: 必要参数,字符串类型,用于表示查询天气的具体城市名称,\注意,中国的城市需要用对应城市的英文名称代替,例如如果需要查询北京市天气,则local参数需要输入'Beijing';原创 2025-10-10 17:03:27 · 792 阅读 · 0 评论 -
LangChain Model I/O 与 Chain 核心技术原理与智能问答机器人编程实例
本文档是对教程《工业级智能体开发实践,LangChain从零入门与智能体开发实战!RAG知识库检索、MCP智能体开发、数据分析智能体搭建全领域实战!从零学会LangChain!》的实践记录,查看原文请跳转:https://www.bilibili.com/video/BV1pYKgzAE5C?原创 2025-10-07 08:09:33 · 1039 阅读 · 0 评论 -
AI Agent 的体系化分类与产品形态分析
ReAct Agent 和 Function Call Agent 的关键区别在于前者具有自主的 Observe(观察)反馈和自主优化的能力,这是循环迭代的基本要求。:工具模式主要用于 Agent 场景,扩展 LLM 的能力边界,调用外部工具 / API 扩展功能,解决自身无法直接完成的任务(如实时数据查询、代码执行),使其具备影响外部系统的能力。Workflow 和 ReAct 的区别:从逻辑的角度对比,Workflow 是企业信息化转型的提效逻辑,而 ReAct 是以目标为导向的问题解决逻辑。原创 2025-10-05 15:13:50 · 897 阅读 · 0 评论 -
OpenManus 通用智能体实践与代码分析
过程中出现了 OpenAI API error: Error code: 429 错误,原因是 RATE_LIMIT_EXCEEDED 请求 PPIO OpenAI API Server 太快了被限速。非卡点问题,具体解决办法待定。browser_use 工具 go_to_url 打开网页,但是进入了人机测试页面,这里显然有问题。这些旅行计划的 md 文件中具有第二次补充的详细信息,包括:5 days、$1000、History 等细节。第二次请求关注具体的执行步骤,总结具有以下几类步骤和工具执行。原创 2025-10-04 02:14:00 · 625 阅读 · 0 评论 -
人工智能发展史 — 物理学诺奖之 Hinton 玻尔兹曼机模型
因此,Geoffrey Hinton 等人在 1985 年发表论文《A learning algorithm for boltzmann machines》,提出了受限玻尔兹曼机(RBM),通过限制隐藏单元之间和可见单元之间的连接,简化了玻尔兹曼机的架构,即:隐藏单元本身之间没有连接,可见单元本身之间也没有连接。1958 年,大卫·考克斯提出了逻辑回归模型,这是一种广义的线性分类模型,数据公式与感知机模型相似,但使用了的是 Sigmoid 激活函数来替代阶跃函数进行分类,其目的是最大化线性分类的准确性。原创 2025-09-30 18:20:35 · 2709 阅读 · 0 评论 -
使用 Nsight Systems 来优化 CUDA 程序性能
如果你的整个程序的核函数调用是均匀的,那么只对其中一段采样就可以了,那么可以设置一个分析的延后时间并采样中间的一段时间。如果整个程序调用核函数是不均匀的,随着时间变化核函数中的计算量,调用参数都会发生改变,那么建议全不勾选,这样它会分析整个程序的运行过程。Nsight Systems 是一款系统级性能分析工具性能分析工具,在系统级的层面,用于分析 GPU 和 CPU 之间的工作负载,例如:提供了从 CPU 调度到 GPU 内核执行过程的详细 Timeline 图。帮助识别 CUDA 层面的性能瓶颈。原创 2025-09-25 01:03:53 · 1757 阅读 · 0 评论 -
在 Windows GPU 机器上运行 Linux CUDA
在 GPU WLS2 技术中,GPU Driver 被安装在 Windows 上,而 CUDA lib 则被安装在 Linux 上。如下图所示 Linux 中的 CUDA lib 通过 dxgkrnl(操作系统图形内核)来集成到 Win VDDM(图形驱动程序模型)中的 GPU Driver。通过 WSL2 和 GPU 半虚拟化( GPU -PV )技术,使得 GPU 开发者可以轻松地在 Windows GPU 机器上运行和调试 Linux CUDA 程序。其技术堆栈如下图所示。原创 2025-09-23 22:34:17 · 1125 阅读 · 2 评论 -
AI Agent 软件工程关键技术综述
后续步骤可以访问前面步骤的结果和数据,并根据结果判断调整执行路径,最终完成整个任务链条。Agentic AI 解决了 LLM 无法操作外部环境的问题,RAG 解决了 LLM 知识边界固化的问题,使得 LLM 应用的潜力得到了极大的扩展。RAG 是缓解或解决上述问题的良药,核心是 “动态知识注入机制”,提供了一个外部知识存储,在不修改 LLM 参数的前提下,通过 “外挂” 的形式为 LLM 补充 “实时、准确、私域” 的知识,拓宽了 LLM 的知识边界。最后,MCP Host 将工具执行结果输入到 LLM。原创 2025-09-14 20:39:34 · 1284 阅读 · 0 评论 -
智能体综述:从 Agentic AI 到 AI Agent
区别于 AutoGPT 是一个研究项目,OpenAI Agent 是一个面向生产的软件架构范式,所以 OpenAI Agent 除了 “规划、行动、观测” 三元协同循环之外,还系统性的设计了 Memory(记忆体)、Planning(规划器)、Action(执行器)、Tools(工具集)四大模块以及它们之间的协作关系,进而增加了生产环境所需要的可信输出和 Prompt 子迭代优化的能力。但值得注意的是,现如今的 Multi-Agent 产品往往容易陷入华而不实的窘境,更强调技术而非业务问题的解决。原创 2025-09-13 17:42:42 · 975 阅读 · 0 评论 -
常用 AI 工具集
原创 2025-07-07 11:06:57 · 308 阅读 · 0 评论 -
Cursor 编程实践 — 开发环境部署
为了更方便地向 LLM 提供上下文信息,Cursor 内设了 @ 注记符,使用 @ Add Context 注记符能够方便地注入对应的上下文信息到 Chat 对话框中。Cursor IDE 是 VS Code 的一个分支,所以如果你已经在本地使用了 VS Code,那么可以直接导入 vscode 配置到 Cursor IDE 使用。例如:我现在有关于银行客户的数据样例,主要想做“银行信用:对银行客户的评分判别”分析,请帮我生成 python 代码并且分析。开箱即用:建议选择中文,方便打造个人习惯配置。原创 2025-06-11 18:48:13 · 1876 阅读 · 0 评论 -
AI Agent 与 Agentic AI 企业实践
标注过程中还需建立严格的质量控制机制,包括随机抽检、交叉验证和专家评审等多重保障措施,确保数据质量达到行业应用标准。高质量的标注数据不仅提升了Agent的专业表现,也为后续的模型微调提供了可靠基础。数据工程实施:核心在于构建高质量的专业知识库。知识库构建流程始于全面的原始数据采集,需综合考虑公开文献、行业标准和企业内部资料等多种数据源。技术架构设计:需要充分考虑业务特性和性能要求,典型的分层架构包括感知层、推理层、执行层和反馈学习层四个核心部分。如:客户服务智能助手。如:金融投资分析系统。原创 2025-06-07 10:32:13 · 1297 阅读 · 0 评论 -
AI Agent 与 Agentic AI 实现技术框架
AI Agent 协议的定义:本质是一个标准化的通信协议,定义了 Agent 之间以及 Agent 与外部系统之间的结构化通信的规则、格式和程序。作为系统的 “大脑”,结合领域适配的大模型与知识图谱,实现对复杂场景的理解和决策推理,例如在法律助手应用中,需要将最新法规与历史判例进行语义关联,支持类案推理;2024 年以来,随着 Multi-Agent 技术的成熟,涌现了一系列的 AI Agent 通信协议,包括:MCP、A2A、ANP、AP 等等。数据工程实施:核心在于构建高质量的专业知识库。原创 2025-06-07 10:10:36 · 1090 阅读 · 0 评论 -
AI Agent 与 Agentic AI 综述
智能体(Agent)是一种能够 “感知环境→理解输入→规划决策→执行反馈”,以此来实现特定目标的软件实体,它们超越传统自动化脚本,不再依赖固定流程,而具备一定程度的环境适应与智能行为。智能体具有 4 大基本能力,如下图所示。记忆:分为短期记忆和长期记忆。是理解能力的基础,理解能力是指智能体解读用户指令、理解任务目标的能力。最新研究如 MobileFlow 引入了 GUI Chain-of-Thought(CoT)技术,使模型能够像人类一样进行推理,从而更好地理解复杂任务。原创 2025-06-06 01:05:02 · 1206 阅读 · 0 评论 -
GPU 超级节点:AWS Trainium UltraServer
Trainium1 于 2020 年发布,使用 NeuronCore-v2 核心,是一款用于专注于 AI/ML 训练的加速芯片,支持 BF16 和 FP32 进行高精度训练,以及支持 TF32、FP16 和 INT8 以提高效率,还配备了专用的集合通信库芯片。可用于训练数十亿参数的大模型。2024 年,AWS 宣布了下一代 Trainium3 芯片,采用 3nm(纳米)制程,预计将比 Trainium2 提升 2 倍的性能,改善 40% 的能效,将于 2025 年底推出。所以,是的,这大约好 37.5%。原创 2025-05-19 00:34:02 · 3042 阅读 · 0 评论 -
人工智能发展史 — 物理学诺奖之 Hopfield 联想和记忆神经网络模型
约翰·霍普菲尔德(John Hopfield)文学士、物理学博士,研究领域横跨物理学、分子生物学、神经科学、计算机科学,是一名以推动跨学科交叉融合而闻名于世的科学家,其推动了物理学与生命科学、人工智能的交叉融合,被誉为 “扩展统计物理学边界的先驱”,获得了 2024 年的物理学诺贝尔奖。霍普菲尔德早期是理论物理学家,专注于固体物理和量子力学,研究电子行为与能量状态,在激化子、长程电子输运等方面有极大的贡献。原创 2025-05-03 11:49:52 · 2831 阅读 · 0 评论 -
人工智能发展史 — MP 模型和感知机模型的数学模型与编程应用
这意味着用于描述样本的特征需要由专家设计,算法性能依赖于人工设计和抽取这些特征的准确度,以便使模型能够完成特定的任务,因此它的应用受到了很大的限制。其中,“阈值逻辑”、“Hebb 学习率”,前 2 个理论解决了单个神经元层面的建模问题,来自于对大脑神经元的生理学研究,共同构成了 “感知机” 的理论基础,在 1950s 提出;所以,和 MP 模型一样,感知机模型也是一个应用于线性分类场景的 “二分类” 分类器,训练的目标是找到一个超平面(例如:在二维空间中的超平面是一条直线),来将特征空间中的样本分为两类。原创 2025-04-26 02:43:41 · 1077 阅读 · 0 评论 -
AI 数理逻辑基础之统计学基本原理(上)
离散系数是一种 “无量纲” 的相对度量,公式如下,离散系数等于标准差除以均值,从而消除了量纲的影响,例如:1.4/6=0.23 和 14/60=0.23 之间的 CV 相同,但量纲相差了 10 倍。Pearson 用于测量 x 和 y 连续变量之间的线性相关性,但现实中存在大量非线性相关的数据集,但它们之间也会存在某种关联关系,如单调关系。掌握统计学的数据科学家或工程师,他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。通过海量数据进行分析,获得具有巨大价值的产品和服务,或深刻的洞见。原创 2025-04-04 23:58:42 · 1370 阅读 · 0 评论 -
联结主义人工智能发展史
核心思想是:认为人的智能归结为人脑的高层活动的结果,强调智能活动是由大量简单的单元通过复杂链接后并行运行的结果。弗兰克·罗森布拉特(Frank Rosenblatt)基于 MP 模型再进一步发明并在 IBM-704 计算机上实现了一种新的神经元数学模型,称为感知机模型(Perceptron),现在也将其称为一种单层神经网络,是神经网络和支持向量机的基础,作为早期神经网络研究的一个重要里程碑。即:感知机是二分类的线性模型,其输入的是实例的特征向量,输出的是实例的类别(+1 和 -1)。原创 2025-04-02 16:29:56 · 1127 阅读 · 0 评论 -
AI 算力的科学衡量与计算方式
在这些应用中,对于一些实时性要求较高的任务,如图形渲染、音视频处理等,单精度浮点数能够提供足够的精度,并且在存储和计算上更加高效,能够满足实时性和资源限制的需求。我们知道,计算机是以 0 和 1 构成的二进制数字进行运算的,比如在基础的二进制里,1 就是 1,2 就变成了 “10”,3 是 “11”。算力(Computational Power):指计算机系统的运算能力,涵盖了 CPU、GPU、TPU、NPU 等运算芯片的能力特征,算力决定了计算机处理信息的速度和效率,是评估计算机整体性能的重要指标。原创 2025-03-26 20:47:10 · 1663 阅读 · 0 评论 -
GPU/CUDA 发展编年史:从 3D 渲染到 AI 大模型时代(上)
要彻底搞明白 GPU 和 CUDA 的运行原理并不容易,而回顾技术的发展历史则是知其然且知其所以然的一个好方法,所以本文会使用篇年纪的方式进行写作。原创 2025-03-03 00:32:31 · 6364 阅读 · 2 评论 -
NCCL 分布式并行计算通讯库技术
NCCL(NVIDIA Collective Communication Library)集合通讯库,是 NVIDIA 为 AI 模型开发者提供的、专用于控制多张 GPU 之间进行高效通信的 lib 库,应用于分布式 GPU 训练场景。如下深度学习软件堆栈图所示。NCCL 的北向是 AI 模型开发框架 PyTorch、Paddle、TensorFlow 等,这些 AI 框架通过集成、调用 NCCL lib 库来控制 GPU 之间的数据通信方式。原创 2025-02-28 12:59:57 · 3269 阅读 · 0 评论 -
大规模 RDMA AI 组网技术创新:算法和可编程硬件的深度融合
对于上述问题,HPCC 的核心思想是利用 INT(In-Network Telemetry,在网遥测)技术来提供精确的链路负载信息,并以此来计算出准确的 Sender 速率更新数值,并且实践发现 HPCC 在大多数情况下仅需要 Sender 更新一次速率,而无需迭代更新。TIMELY 算法的核心思想是通过测量报文的 RTT(端到端往返时间)来动态调整 Sender 的发送速率,基于 RTT 的变化进行梯度计算,进而根据梯度实现了基于速率(rate-based)的调速方法。原创 2025-02-22 19:10:14 · 2104 阅读 · 0 评论 -
RoCEv2 高性能传输协议与 Lossless 无损网络
它是 DCB (Data Center Bridging)标准的一部分,用于将流量分配到不同的队列,为每个队列分配一个权重,控制每个流量队列能够使用的带宽百分比,保证高优先级的流量,如 RDMA 流量通常会分配足够的带宽资源。因此,一旦出现丢包,就只能采用 go back N 重传机制,比如:网络链路上已经发送了 1,2,3,4,5 个数据包,假如当 2 这包丢掉了,那么 3,4,5 这三个包都要重传,重传的成本非常大。如下图所示,一旦发生丢包重传,RDMA 的性能就会急剧下降。原创 2025-02-22 10:45:05 · 4040 阅读 · 0 评论 -
GPU 虚拟化技术原理
目录文章目录目录SR-IOV Passthrough vGPUMediated Passthrough vGPUNIVDIA Multi-Instance vGPUSR-IOV Passthrough vGPUGPU 作为一种典型 PCIe 设备,可以基于 SR-IOV 规范,将 GPU 切分为多个 VF 后,再通过 PCI Passthrough 的方式分别提供给多个 VM 使用。Mediated Passthrough vGPUMediated Passthrough(分片透传)vGPU,是一原创 2022-04-04 15:00:13 · 6145 阅读 · 0 评论 -
NVIDIA InfiniBand AI 高性能网络
InfiniBand 是一种网络通信协议,以极高的传输速度将服务器、存储设备和网络设备连接在一起,提供高带宽、低时延的可靠传输。InfiniBand 最初主要用在 HPC(高性能计算系统)中,近年来随着设备成本的下降,InfiniBand 也逐渐被用到企业数据中心。相比传统的 TCP/IP 以太网络,InfiniBand 具有更高的传输效率。原因在于 TCP 协议极其复杂、代码量巨大并且充满了各种特例,而且它比较难卸载。与之相比,IB 使用基于信任的、流控制的机制来确保连接的完整性,数据包极少丢失。使用 I原创 2022-06-21 11:48:33 · 2352 阅读 · 0 评论 -
RDMA 高性能通信技术原理
DMA 技术出现后,NIC 增加了 DMA Controller(DMA Engine)功能模块,首先将 NIC Rx/Tx Queue 与 Main Memory 中的 ZONE_DMA 建立映射关系,然后当 Frames 进入 NIC Rx/Tx Queue 时,DMA Controller 就会将这些 Frames 通过 DMA Copy 的方式存放到 ZONE_DMA 中,期间完全不需要 CPU 的参与。但相对的,由于连接机制和可靠性保障机制的存在,导致 RC 的通信开销较大。原创 2025-02-17 19:13:40 · 1991 阅读 · 0 评论 -
AI 技术原理与应用场景系列文章
RDMA 高性能通信技术原理》原创 2025-02-17 16:21:27 · 817 阅读 · 0 评论
分享