自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(211)
  • 收藏
  • 关注

原创 为什么 MCP 本质上是一种「后 IP 时代的能力寻址」

你这篇的定位,其实已经。我会在的前提下,帮你把这篇内容——不是靠情绪,也不是靠宏大词汇,而是靠。下面这版,不是重写,而是。

2026-01-06 14:19:43 326 1

原创 为什么 Serverless 时代,IP 正在“消失”

IP 并没有过时,它只是不再属于“应用层思考”的一部分。Serverless 并不是“不要网络”,而是终于把网络,变成了平台该操心的事情。未来的软件,不再部署在某个地方,而是存在于“可被路由的能力”之中。

2026-01-06 14:12:25 392

原创 你以为域名只是个“网址”,其实它是整个互联网最早的调度系统

域名不是入口,它是协议层之上的“秩序”。DNS 不是配置文件,而是人类在不可靠网络中建立的第一套抽象系统。当你真正理解这一点时,你就不会再纠结“为什么 DNS 生效这么慢”,我到底想让这个域名,替我承担什么责任。

2026-01-06 14:10:17 1000

原创 OpenAI:从“开放理想”到“时代引擎”的十年跃迁

回头看十年,你会发现 OpenAI 并没有背离最初的目标。不是让 AI 慢一点,而是抢在一切失控之前,先把方向盘握在自己手里。这条路,没有道德高地,只有工程抉择。而我们,已经坐在车上了。

2026-01-04 16:12:43 225

原创 为什么 AI 写得越快,软件反而越难理解

在上世纪六十年代末,随着系统规模增长到开发者已无法有效掌控的程度,“软件危机”(Software Crisis)这一说法首次出现。此后,每一代人似乎都用更强大的工具“解决”了这场危机,但结果往往只是制造出了更大的问题。。由 AI 生成的代码库,本质上是生成它们的那一连串曲折对话的映射。每一次澄清、每一次方向调整,都会被直接固化进系统架构中。我们正在用 vibe coding 的方式,一步步走向灾难。

2026-01-04 16:02:25 727

原创 从单一残差流,看懂 Prompt 为什么“能工作”

如果把 Transformer 看成一个世界模型,那么残差流就是它的世界状态。Prompt 的意义,也就不再神秘了:它是你能直接触碰这条状态流的最原始、最粗暴、但也最有效的方式。你不是在命令模型怎么想,你是在帮它选一个一开始就站得住的方向。理解这一点,你就不再纠结 Prompt 的“话术”,而会开始真正做一件更高级的事:状态设计。这,才是 Prompt 能工作的真正原因。

2026-01-04 10:53:17 932

原创 单一残差流:大模型真正的“高速公路”

Transformer 不是多模块协作系统,而是一条单一残差流上的连续写作过程。都只是往这条流里,写下不同风格的注释。你理解了这一点,才算真的站在了“大模型工程”的地基上。

2026-01-04 10:49:31 873

原创 梯度下降如何把学习变成一件可执行的事

很多人第一次真正理解“学习”这件事,并不是在学校,而是在模型第一次开始收敛的时候。你盯着屏幕,看着 loss 从一个混乱的数字慢慢往下掉,那一刻会突然意识到:原来学习不是顿悟,也不是聪明,而是一种可以被执行、被重复的动作。没有宏伟蓝图,没有全局视角,甚至不保证你走在一条通往最优解的路上,它只在乎当前这一步是不是让误差变小。当你理解这一点,你会发现,模型训练、工程迭代、个人成长,其实都共享同一套隐秘逻辑。但一旦把它写成代码,梯度下降立刻暴露出它真实的样子:一个循环,一个反馈,一个不断微调的过程。

2025-12-31 16:04:01 263

原创 梯度下降:机器学习世界里,最朴素也最残酷的算法

但真正在工程里起作用的,从来不是这些符号,而是一个极其朴素的判断:如果我再这样走下去,代价是变大还是变小。梯度就是这种感知,它不是答案,只是一种局部的方向感。每一步都带着误差,每一次更新都不完美,但正是这些抖动,让模型不至于被困在某个看似合理的低谷里。慢慢地你会意识到,梯度下降并不只是在优化函数,它在塑造一种对复杂性的态度。可只要你真的做过模型训练,盯过 loss 曲线熬过夜,就会意识到,这个世界上大多数复杂系统,最后都屈服在这个动作之下。」,不做结构化拆解,不拉长横线,不搞“讲义感”,而是。

2025-12-31 16:01:01 168

原创 AI 教父与 AI 教母:他们不是造神的人,而是点燃时代的人

很多人第一次听到“AI 教父”“AI 教母”这两个称呼,都会下意识觉得:这是不是媒体造出来的词?是不是又在给技术人物加光环?但如果你真的顺着今天的大模型、ChatGPT、自动驾驶、视觉识别这条技术链条往回追,会发现一个有点残酷、也有点浪漫的事实——而“教父”和“教母”,指的正是其中两种完全不同、却又彼此互补的力量。

2025-12-30 09:59:56 925

原创 意图识别深度原理解析:从向量空间到语义流形

意图识别的技术演进,本质上是语义表示能力不断增强的过程。从统计词频到理解上下文,再到如今的少样本学习和联合建模,我们正在无限逼近人类的理解能力。对于开发者而言,理解这些底层原理,才能在模型调优和架构选型时游刃有余。

2025-12-12 22:59:31 920

原创 意图识别面试通关指南:从基础问答到场景落地

意图识别本质上是一个文本分类任务。它的目标是将用户的自然语言输入映射到预定义的意图类别(如“查天气”、“订机票”、“播放音乐”)中。在对话系统架构中,它通常位于 NLU(自然语言理解)模块,紧随分词/预处理之后,与槽位填充(Slot Filling)共同构成 NLU 的两大核心任务。面试中除了背诵八股文,更重要的是结合自己的项目经历,阐述在面对具体困难(如数据少、噪音大、实时性要求高)时的思考过程和解决方案。祝大家面试顺利!

2025-12-12 22:58:50 629

原创 为什么你的显卡装不下100B模型?深度解析大模型精度与显存

追求极致效果 / 科研微调:请死守。企业级推理 / 追求性价比INT8是最稳妥的选择。个人玩家 / 本地部署:毫不犹豫选择INT4。它是让大模型飞入寻常百姓家的关键钥匙。下次当你看到 HuggingFace 上的时,你应该能会心一笑:这正是为你省下的那 150GB 显存。

2025-12-11 17:24:17 939

原创 为什么你的笔记本能跑70B模型?深度解析稀疏激活(Sparse Activation)技术

稀疏激活技术正在重塑大模型的推理范式。它证明了**暴力美学(堆参数)**之后,**精细化管理(稀疏化)**才是通往 AGI 的必经之路。无论是 DeepSeek V3 的高效架构,还是让 Llama 3 在手机上飞奔的端侧技术,背后都离不开 Top-k Gating 和 Activation Pruning 的身影。理解了这两个机制,你就理解了下一代 AI 基础设施的核心秘密。如果你也在关注大模型推理优化,欢迎在评论区交流你的看法!

2025-12-11 17:18:55 860

原创 AI Agent进化论:从LLM到自主智能体的范式跃迁

AgentLLMPlanningMemoryToolsAgentLLMPlanningMemoryToolsLLM(大脑):核心控制器。负责理解用户意图、进行逻辑推理、生成决策指令。没有LLM,Agent就是一堆死板的代码;有了LLM,Agent才有了“灵魂”。Planning(规划)子目标分解:将复杂的大目标(如“开发一个贪吃蛇游戏”)拆解为一系列可执行的小步骤(编写逻辑、设计UI、测试运行)。反思与修正。

2025-12-09 08:35:28 1137

原创 构建超级个体:AI Agent核心架构与落地实践全景解析

如果说LLM是电力,那么AI Agent就是各种电器。从单体智能到多智能体协作(Multi-Agent),Agent架构正在重塑软件开发的格局。本文将深入探讨Agent的主流架构模式(Router, Map-Reduce, Reflection),解析LangChain、AutoGen等开发框架的实战代码,并剖析企业级落地的真实挑战(幻觉、死循环、安全)与解决方案。

2025-12-09 08:34:48 1006

原创 混乱是阶梯:随机性与进化的本质

所以,不要惧怕混乱。在算法中,我们引入噪声(Noise)来防止过拟合;在进化中,基因通过突变(Mutation)来寻找新的出路。混乱不是阻碍,它是阶梯。它是系统打破平衡、跃迁至更高维度的唯一路径。

2025-12-04 15:00:07 277

原创 视觉标注:AI 进化的隐形引擎与“数据中心”革命

吴恩达(Andrew Ng)近年来一直在呼吁Data-Centric AI(以数据为中心的 AI)。他认为,现在的模型架构已经足够成熟,与其花几个月去微调模型参数提升 0.1% 的精度,不如花几天时间清洗和修正标注数据,往往能带来 10% 的提升。视觉标注,正在从一项劳动密集型工作,转变为一项知识密集型工作。未来的 AI 工程师,可能一半的时间不是在写代码,而是在设计“如何教机器看世界”的课程大纲(标注策略)。如果说代码是 AI 的骨架,那么标注数据就是 AI 的灵魂。

2025-12-02 11:22:05 1001

原创 深度解析 ImageNet 与李飞飞:当数据成为 AI 的眼睛

ImageNet 就像是 AI 历史上的一座灯塔。它结束了那个算法在黑暗中摸索的时代,开启了深度学习的黄金十年。有时候,改变世界的不是更复杂的公式,而是对基础数据的尊重和对人类认知的深刻理解。如果说 ImageNet 是教会了机器“睁眼看世界”,那么现在的空间智能和具身智能,就是在这个基础上,试图让机器“走入世界”。如果你也在关注从计算机视觉到具身智能的跨越,或者对李飞飞教授的理念有自己的理解,欢迎在评论区留言交流。让我们一起见证 AI 从“旁观者”变成“参与者”的时刻。

2025-12-02 11:14:57 680

原创 反向传播算法深度解析:从梯度消失到误差的逆向旅行

反向传播则是把“预测错了多少”这个误差信息,从最后一层邮局一层层往回传,告诉每一层邮局的工作人员:“你刚才的处理方式需要调整,调整幅度就是误差对你的影响程度。真正的收获不只是知道了链式法则,而是在脑子里形成了一张“误差流动图”:从输出层的损失,到每一层的梯度,再到权重更新的幅度。梯度大的权重,说明它对最终误差贡献大,需要大幅调整。从输出可以看到,随着训练进行,梯度范数逐渐减小(说明网络接近收敛),误差从输出层(delta2)传播到隐藏层(delta1)时会有衰减,这正是反向传播的直观体现。

2025-11-29 06:30:00 306

原创 反向传播算法:误差的逆向旅行

过去十年,深度学习从一个学术概念变成了工业界的标配工具。但很多开发者在使用 TensorFlow 或 PyTorch 训练模型时,只知道调用,却不知道误差信号是如何从输出层一层层倒流回输入层的。当网络不收敛、梯度消失、训练卡住时,只能盲目调参,却无法定位问题根源。反向传播算法,就是让神经网络"学会"的核心机制。它不是自动求导库的魔法,而是链式法则在计算图上的工程实现。理解它,你就能看懂为什么某些网络结构会失败,为什么某些激活函数更适合深层网络,为什么残差连接能让训练更稳定。

2025-11-28 09:00:00 697

原创 如何用 Python 构建“智能图注管理器”:让 Markdown 图片资产自动化、结构化、语义化

写技术文章写到一定体量,最大的痛点不是写,而是图片越来越多,命名越来越乱,图注不统一、章节跳号、上下文混乱……最后你自己都无法从文件堆里找到某张图。放在仓库里完全没法用。于是我做了一个脚本:它能自动扫描 Markdown、智能识别图片上下文、抽取关键词、生成图注、重命名图片文件,让整个写作工程具备**“规范又自动”**的感觉。这篇文章就带你把这个脚本的工程逻辑拆开,真正理解它是怎么实现“图资产智能化”的。

2025-11-27 11:01:21 379

原创 Kubernetes 可观测性落地纪实:从脏指标到自愈路径

这个场景听起来平常,却是很多团队每天都在经历的:指标说宕机,日志说正常,真实用户体验早已下降。所以我们给每个重要事件加了“上下文贴纸”:Namespace、Pod、节点、Git 提交、灰度批次,让人即使只看事件流也能猜到故事的发展。我们把 Grafana 仪表改成“事件条 + 指标折线 + 日志切片”联动视图,值班同学点一下事件条,就能在同一屏里看到当时的 CPU、延迟和关键日志。的解析过程,并按 Namespace + 原因聚合,同时给你一个“最可能要检查的指标列表”,方便值班同学秒级定位。

2025-11-27 09:00:00 339

原创 湖仓一体指标回放:从运营复盘到数据织布

这种痛点的根源是:湖仓一体没有真正落地,湖里的实时埋点与仓库的指标脱节,运营只能在 PPT 上猜想。解决方案不是“再建一个表”,而是把湖和仓的故事线连起来,让任何人都能回放任意时间段的指标。我们在仪表里增加“回放”按钮,一键把 12:00~13:00 的事件重放到临时表,帮助运营“看见”那一小时发生了什么。下列脚本把实时事件(JSON Lines)和交易事实表(CSV)接入 DuckDB,构建一个 10 分钟粒度的“回放指标”,并输出 GMV、转化率、热门渠道。列展示出视图到支付的比率,若为。

2025-11-27 07:00:00 361

原创 边缘 LLM 推理路径图:从工厂噪声到低延迟部署

某天凌晨,机器人突然停线,原因不是模型准确率,而是推理等待队列爆炸,延迟超过 1 秒,设备被判定超时。出口就像地铁换乘大厅,指示牌要极其清晰,否则乘客就乱跑。和“微批调度器”,它会等待 60ms 收集请求,形成批次后再调用模型,同时输出等待时间,帮助你验证在噪声网络下的调度策略。在扩展实验里,你能看到等待时间被限制在 60ms 左右,而推理耗时稳定,说明微批策略既保持了延迟上限,也提升了吞吐。,分别以“单请求”和“批处理”方式运行,记录延迟和输出,帮助你快速评估“延迟 vs 吞吐”取舍。

2025-11-26 10:20:24 400

原创 KVCache 在大模型推理中的作用:为什么它能让模型“越算越快”?

那天我在本地跑一个 7B 模型,连续生成几段代码。第一句输出还算平稳,第二句突然变快,第三句几乎是“刷刷刷”地蹦出来。我当时愣了一下——按常识来说,上下文越长,模型应该越慢,怎么反过来了?在工程群里问了一圈,答案都很一致:但这句话对大部分人来说更像一个黑箱。所以今天我们不从术语、不从公式开始,而是一起从“模型为什么会越算越快”这个真实的体验出发,把 KVCache 讲成你脑子里能长出结构、工程师能真正看懂的东西。

2025-11-26 08:00:00 1008

原创 大模型:从「语言能力」到「系统能力」的演化,你需要补上的那块认知拼图

理解模型的底层推理方式(空间推理,而不是知识检索)把模型融入业务流程,而不是拿来问问题在架构中明确“模型 vs 人 vs 工具”的分工如果你能做到这三件事,你会发现:你的迭代速度会快得惊人你的系统复杂度会被模型吸收你的个人生产力会被无限放大而这,就是大模型正在带来的真正革命。

2025-11-25 07:00:00 632

原创 卷积:它不是公式,它是模型看世界的方式

有时你可能会遇到这样的瞬间:模型在识别一张图片、分辨一段语音或提取特征时,总像是“突然就懂了”。而当你深入代码,发现那行看似无害的conv2d我第一次意识到卷积的重要性,是在调试一个简单的边缘检测 Demo。当时我还天真地以为卷积就是“滑一下、乘一下、加一下”。这一刻,我意识到卷积不是数学概念,而是一个思考方式。接下来,我想带你一起走一遍卷积“看世界”的方式,用类比、可视化、伪代码与 NumPy 实验,把它从抽象公式变成你能“感觉到”的东西。

2025-11-24 21:36:02 853

原创 PyTorch:写给每一个想真正吃透深度学习的人

很多人第一次写深度学习模型时都会经历同一个瞬间:代码能跑,但你根本不知道它「为什么能跑」。尤其在使用 PyTorch 的时候,你会觉得它既顺手又神秘——张量能随意在 GPU 上飞来飞去,自动求导像魔法一样,网络结构像乐高随便拼就是一个 SOTA baseline。但如果你想从“能跑”走向“理解”,你得真正知道 PyTorch 在做什么。今天这篇文章,我会带你一次性把 PyTorch 的核心原理、心智模型与可复现实操全部讲清楚。整个过程不堆概念、不摆公式,而是让你像拆一个发动机一样,看懂每一颗螺丝的意义。H

2025-11-24 21:04:34 819

原创 比较三大新范式:OpenAI Swarm / Claude Artifacts / LangGraph

来自 OpenAI 的开源/实验型框架,名为Swarm。其 github 页面指出:这是一个 “实验性的、教育用的”框架,用于构建多智能体协作系统。每个 Agent 有 instructions + functions;可以将对话或任务“移交”给另一个 Agent。Medium其定位并非“企业级全功能生产平台”,而更像 “学习 & 快速原型” 的入口。Composio。

2025-11-24 16:59:03 962

原创 R1、A2A、Self-Rewarding:2025 自进化大模型的技术断层正在形成

如果 A2A 是“自生成训练样本”,那么 Self-Rewarding 就是“自生成奖励信号”。它的核心思想是:奖励信号不是由人类或外部模型提供,而是由模型自身的结构、逻辑和知识体系推断出来。占位图:Self-Rewarding 奖励生成流程(Google 搜索:self rewarding llm diagram)① 自一致性(Self-Consistency)多次推理,取稳定一致的结果作为奖励。② 规则奖励(Rule-Based Reward)

2025-11-24 16:57:02 1025

原创 快速理解:对称加密、非对称加密

│ 客户端(浏览器) │。│ 明文数据 → AES 加密 → 密文 → 网络 → AES 解密 → 明文 │。│ 3. 客户端随机生成一个 AES 密钥(对称密钥)│ 客户端生成:AES_KEY(用来真正加速传大数据) │。│ 双方开始用 AES_KEY 对所有数据进行高速加密传输 │。│ 服务器(网站) │。│ 服务器(网站) │。

2025-11-21 11:25:28 703

原创 AES 加解密 IV 的意义

模式是否需要 IV是否安全是否泄露结构是否适合生产ECB❌ 不需要❌ 不安全✔ 会泄露结构❌ 禁用CBC✔ 需要✔ 安全❌ 不泄露结构✔ 推荐✔ 需要✔ 安全❌ 不泄露结构✔ 推荐所以:IV 不是用来解密的,是用来“隐藏模式”的。

2025-11-21 11:19:31 906

原创 RLHF → RLAIF → 自动偏好学习:大模型对齐技术的三次演化

无论是在企业项目中,还是在智能体(Agent)系统里,你都能感受到这种漂移:模型有时过度“自信”,有时过度“安全”,有时又出现幻觉,一旦进入复杂语境,行为更像是一块难以琢磨的黑石头。不是概念罗列,而是让你看懂“为什么演化”“怎么演化”“对你做的 AI 应用意味着什么”。真正让模型从“能说”到“说得对”“说得稳”“说得负责任”,靠的不是堆显卡,而是——偏好不再是“回答好不好”,而是“模型执行工具、检索、行动序列是否合理”。如果说 RLHF 是“人教模型”,RLAIF 是“强模型教弱模型”,

2025-11-20 07:00:00 453

原创 Context Engineering 精密上下文工程:从提示词到动态上下文管线

在适当的时间为模型提供适当的信息,并以结构化方式管理模型推理所需的全部信息环境的一套方法论。它包含以下内容:业务规则(规则层)历史对话(记忆层)系统设定(角色层)知识库(知识层)工具调用结果(工具层)用户输入(用户层)中间推理状态(链路层)搜索 / 数据库 / API 返回内容(外部信息层)执行轨迹(状态层)结果校验(审查层)如果你仔细看这些层,会发现它像极了现代操作系统的结构。这不是巧合。LLM 其实是“单线程 CPU + 巨大缓存 + 弱内存”,

2025-11-19 07:00:00 465

原创 长上下文技术的底层逻辑:Attention、压缩、缓存与跨页推理

如果把模型的参数视为“固化智能”,动态智能(Dynamic Intelligence)——模型不必依赖训练时的记忆,而是可以随时调用外部信息。这一点正在改变大模型的范式:Prompt 不再是输入,而是“操作系统事件”文档不再是知识,而是“模型的临时记忆”模型不再是一段神经网络,而是一个“具备阅读循环的推理引擎”当我们把上下文从 128K 拉到百万级,我们做的不是扩容,而是让模型第一次拥有阅读、回溯、定位、跨页分析的能力。这是一种新的智能。

2025-11-18 07:00:00 862

原创 ​​​​​​​Embedding 的本质:为什么你的知识库 RAG 不准?

RAG(检索增强生成)效果不佳的核心原因往往在于Embedding(向量编码)未能正确理解业务内容。Embedding的本质是将语义投影到特定结构的向量空间,而非真正理解文本。当模型训练数据分布与业务领域不匹配时,就会出现语义距离错乱,导致召回错误。优化RAG效果的关键在于:1)合理切分Chunk以保持语义完整;2)选择适配业务的Embedding模型;3)采用重排序等增强技术;4)构建父子向量结构处理长文档;5)进行术语扩展;6)使用混合检索方法。真正的挑战不是堆积文档,而是构建与业务对齐的语义空间。

2025-11-18 07:00:00 1800

原创 MCP(Model Context Protocol)如何把模型变成“操作系统插件”?

过去一年,越来越多开发者开始意识到一个奇怪现象:大模型越来越强,但却越来越“难接入”。一个模型能写代码、能规划流程、能分析文件,可当你真正把它用到项目里,却发现它像一个高智商但不懂规矩的外包工程师——什么都能干,却没有明确接口,不知道该什么时候读资源、什么时候调用工具、什么时候结束推理,更像是一个“悬浮在云端的智能体”。这种“不落地的问题”,几乎横在所有智能体应用之前。这一刻,智能体从“单点推理”开始走向“系统化协作”。

2025-11-17 14:22:27 656

原创 Agent Orchestration:为什么推理正在变成“连接问题”?

你能感觉到它“智能”,但一旦让它执行一个 10 步以上的流程,它就像掉线一样失去协调能力。当上下文滚雪球式变大,模型必须频繁在 10 万 token 的语境里跳来跳去,就像一个人不断翻聊天记录找信息,自然会变慢、变乱。如果你也在构建智能体、数字员工或多模型工作流,欢迎留言交流你的系统设计难题,也欢迎告诉我你希望下一篇写些什么。擅长“编排”,不擅长“持久化”。当连接被重建,智能才能真正从“点”变成“面”,从“演示级”变成“生产级”。如果你把 step1 换成调用大模型,就能得到一个真实的“智能体节点”。

2025-11-17 11:54:07 837

原创 推理成本优化:Speculative Decoding、Chunk Decoding 与混合推理

(开发者终于有办法让模型“跑得快、算得少、效果不掉”)过去一年,我们很少再讨论“模型怎么训练”,更多在谈“模型怎么跑得起”。算力预算不断压缩、应用端延迟要求不断提高、手机和边缘端又开始在容纳 20B~100B 模型,推理成为新的瓶颈。你可能也经历过:模型效果很好,但线上一跑,成本高得离谱;加点批处理可以省算力,但延迟又上不去;想上移动端,但生成速度慢得让用户想打人。这背后折叠出一个行业事实——

2025-11-17 11:25:15 1320

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除