
LLM小知识点
文章平均质量分 87
Large Language Model 相关知识
frostmelody
这个作者很懒,什么都没留下…
展开
-
现阶段十个Agent协议概览
Agent 协议和相关技术栈正在快速成熟,朝着更强大、更安全、更易于集成和更智能化的方向发展。LLM 的深度融合是当前最显著的特征之一,同时,对互操作性、安全性和开发者友好性的追求也在持续驱动创新。下表基于各协议的官方文档与最新发布信息,对版本、核心技术与新增特性等进行了对比整理,帮助快速了解各协议在多Agent生态中的定位与演进。原创 2025-05-19 13:11:08 · 1067 阅读 · 0 评论 -
赋予AI更强的“思考”能力
这篇文章探讨的是如何让AI模型(尤其是大型语言模型,LLM)在回答问题或解决任务前,能有更多的“思考时间”,从而变得更“聪明”,能处理更复杂的问题。这对我们程序员来说,就像我们写代码解决复杂逻辑时,需要时间去构思、打草稿、调试,而不是一蹴而就。这篇文章描绘了AI领域一个非常令人兴奋的研究方向:如何让AI不仅仅是“知道”答案,更能“理解”问题并推导出答案。通过赋予AI更强的“思考”能力,未来的AI系统有望在更多复杂和关键的领域发挥更大的作用。原创 2025-05-18 22:52:40 · 861 阅读 · 0 评论 -
知识图谱(KG)与大语言模型(LLM)
知识图谱(KG)以其结构化的知识表示和推理能力,为大语言模型(LLM)的“幻觉”、知识更新滞后和可解释性不足等问题提供了有力的解决方案。反过来,LLM的强大文本理解和生成能力也为KG的构建、补全、查询和应用带来了革命性的进步。二者的融合旨在结合符号主义AI(以KG为代表)和连接主义AI(以LLM为代表)的优势,推动人工智能向更智能、更可信、更易用的方向发展。尽管目前仍面临诸多挑战,但随着技术的不断进步和创新,KG-LLM的融合将在科研和产业界催生出更多突破性的成果。原创 2025-05-18 16:56:16 · 1003 阅读 · 0 评论 -
用Colab启动Streamlit应用
在 Google Colab 中运行 Streamlit 应用的方法与本地不同。Colab 本身是一个 Jupyter Notebook 环境,直接在单元格里运行 Streamlit 代码不会像在本地那样自动弹出浏览器窗口。) 的工具,它可以在 Colab 服务器和你本地的浏览器之间建立一个安全的连接通道,让你能访问到在 Colab 上运行的 Streamlit 应用。这样操作后,应该就能在 Colab 中成功运行并访问您的 Streamlit 应用了。的一个 Python 封装库,使用起来更方便。原创 2025-05-18 15:21:51 · 882 阅读 · 0 评论 -
深入浅出知识图谱
我们人类的大脑是如何存储和理解世界的?我们不是记住一堆孤立的事实,而是将各种事物、概念以及它们之间的联系编织成一张巨大的网络。比如,你知道“姚明”是一个“篮球运动员”,他也“出生于”“上海”,他“曾效力于”“休斯顿火箭队”。原创 2025-05-18 13:43:22 · 560 阅读 · 0 评论 -
KL散度 (Kullback-Leibler Divergence)
在AI和机器学习中,它不仅是理论分析的基础,也是许多算法设计(如变分自编码器VAE、策略优化RL算法如TRPO、PPO等)中的关键组成部分,用于度量信息损失、约束模型行为或指导模型学习。在RLHF中,它扮演了稳定器和安全阀的角色,确保在通过强化学习优化模型以符合人类偏好时,模型不会偏离其已学到的有用知识太远。KL散度,也称为相对熵 (Relative Entropy),是信息论中一个核心概念,用于衡量两个概率分布之间的差异。,则KL散度为无穷大,意味着如果。的一部分(或者更准确地说,是。原创 2025-05-17 16:27:05 · 769 阅读 · 0 评论 -
当下流行的智能体通信协议:MCP、A2A、ANP 分别是什么?
MCP 是一种协议,专注于让AI智能体(尤其是由大型语言模型驱动的智能体)能够以一种标准化的方式与外部工具(如API服务)或数据源(如数据库)进行交互。可以将其理解为智能体使用外部工具的“通用语言”。确保数据交换的安全性和规范性(类型化)。提供可扩展的工具调用方法。从而增强单个智能体的功能,并让工具更容易被复用和集成。A2A 协议专注于实现不同AI智能体之间的直接沟通和协作,即使这些智能体由不同开发者创建、在不同系统上运行。可以看作是智能体之间互相“对话和分配工作”的规范。让智能体能够。原创 2025-05-15 22:01:58 · 843 阅读 · 0 评论 -
为什么当前的大型语言模型(LLMs)普遍采用“仅解码器”(Decoder-only)架构?
仅解码器架构在大型语言模型(LLM)领域占据主导地位,主要因其与文本生成任务的高度契合。该架构通过单向注意力机制(Causal Self-Attention)逐个生成词元,确保生成过程符合文本的自然顺序。KV缓存技术进一步优化了推理效率,减少了重复计算。仅解码器架构的简洁性和统一性使其在训练效率和可扩展性上表现优异,能够通过“下一个词元预测”任务有效利用海量数据进行自监督学习。此外,单向注意力机制不仅隐式地学习到位置信息,还通过满秩的注意力矩阵增强了模型的表达能力。GPT系列的成功进一步验证了该架构的有效性原创 2025-05-13 21:44:02 · 356 阅读 · 0 评论 -
CV和NLP领域常见模型列表
模型特点任务类型PEGASUS预训练专为摘要设计编码解码 + 噪声建模多语言支持强任务统一建模任意格式摘要长文摘要能力优秀长文+结构保持。原创 2025-04-24 16:59:20 · 591 阅读 · 0 评论 -
让 AI 在“睡觉”时也能学习(Sleep-time Compute: Beyond Inference Scaling at Test-time)
传统的人工智能(AI)系统通常只在用户提出问题时才进行推理计算,这种方式称为“测试时计算”(Test-time Compute)。AI平时没事干,空闲时间没利用起来,计算能力白白闲置。如果问题复杂(比如需要处理一大堆信息),AI得花好几分钟才能给出答案,你得干等着,而且这过程还特别费电(计算成本高)。论文提出了一种新方法,称为“睡眠时间计算”。原创 2025-04-23 12:11:06 · 317 阅读 · 0 评论 -
大模型微调(通俗版)
以前培训(微调)很笨重,需要把大学生所有知识都重新梳理一遍(全参数微调),耗费大量资源(比如几百 GB 显存)。做好微调,既需要科学的方法,也需要一点艺术性的直觉和经验。一个非常聪明但知识“通用”的大模型(比如 GPT),就像一个刚毕业的大学生,什么都懂一点,但不够专业。培训效果好不好,不能只看模型在练习题(训练集)上表现多棒,必须进行严格的“模拟考”和“实践检验”。微调的核心就是用“特定教材”(数据)来塑造模型的能力。:根据 2025 年的行业报告,那些采用高技术含量微调策略的公司,模型上线后。原创 2025-04-23 11:45:56 · 761 阅读 · 0 评论 -
GPT,Bert类模型对比
以下是对 GPT-2、GPT-3、LLaMA 2-7B、LLaMA 3.1-8B、Alpaca 和 Vicuna 六个语言模型在参数量、训练数据、GPU 内存占用、性能表现以及优缺点方面的详细对比:原创 2025-04-17 22:41:56 · 838 阅读 · 0 评论 -
Reasoning in LLM is different from the model inference stage(模型推理和推理阶段不一样)
训练 (Training):构建和学习模型的过程。推理/推断 (Inference)使用训练好的模型进行预测或生成内容的过程。推理 (Reasoning):模型本身具备的逻辑思考和解决问题的能力。原创 2025-04-16 12:28:46 · 190 阅读 · 0 评论 -
多模态大模型MLLM基础训练范式 Pre-train + Instruction FineTuning
为了在图文嵌入空间中更好地对齐视觉和文本信息。为此,使用图像-文本对(image-caption style data),表示为 (X,Ya)(\mathbf{X}, Y_a)(X,Ya),其中:下面两个公式是图文对齐预训练中核心的 语言建模概率函数 和 损失函数定义。它们共同描述了:如何让模型学会根据一张图像生成对应的文字描述,以实现图文信息在嵌入空间的对齐。p(Ya∣X)=∏i=1NaFθ(yi∣Pϕ∘Vφ(X))(1)p(Y_a|\mathbf{X}) = \prod_{i=1}^{N_a} F_原创 2025-04-15 20:52:54 · 1713 阅读 · 0 评论 -
AI时代提出正确问题的能力和人类的灵活性将成为核心竞争力,模式识别与综合能力将超越知识储备的价值
随着 AI 越来越强大,能够处理海量信息和执行特定任务,人类的核心竞争力将从单纯的“知道多少”(知识储备)转向更高层次的认知能力。在 AI 时代,AI 可以作为强大的工具,辅助我们进行数据处理和初步的模式发现。,最终形成决策和创新——这些正是人类不可替代的核心竞争力。未来不是比谁记住了更多孤立的知识点,而是比谁更能。(这本身就需要对模式的初步感知)、原创 2025-04-14 11:05:25 · 287 阅读 · 0 评论 -
Transformer模型中的两种掩码
整个 Transformer 结构中涉及到的 “掩码” 类型一共有两种:① 用于区分同一个 batch 中不同长度序列是否被填充的 key padding mask;② 在训练时,Decoder 中用于模仿推理过程中在编码当前时禁止看到未来信息的 attention mask(也叫做 casual mask 或 future mask)原创 2025-04-13 20:13:06 · 698 阅读 · 0 评论 -
Agent2Agent(A2A)协议简介
A2A就是谷歌给AI智能体们定的一套“通用社交礼仪”+“标准沟通语言”。就像互联网世界的HTTP和TCP/IP协议一样,让原本“鸡同鸭讲”的各种Agent,能互相找到对方、听懂对方的话、还能一起协作干活。本质上,就是把之前各种机构、公司、个人等不同平台,甚至是不同架构搭建的AI Agent,在他们之间架起一座桥,让所有AI Agent都能在上面沟通,互相操作。原创 2025-04-13 14:50:18 · 1095 阅读 · 0 评论 -
大模型是如何把向量解码成文字输出的
(1) 输入文本 → tokenizer → token IDs(2) token IDs → Embedding → hidden_states(中间层向量)(3) hidden_states × W.T → logits(词表得分)(5) token ID → token → decode → 文本(6) 拼接文本 → 重复生成(自回归)原创 2025-04-08 23:30:37 · 715 阅读 · 0 评论 -
为什么 LoRA 梯度是建立在全量参数 W 的梯度之上
来代替全量的参数更新”, 所以梯度传播也必须从。就是“如果我们在做全量微调,该怎么更新。上, 是因为它相当于“用低秩矩阵。别动 W,我在它旁边加一个低秩矩阵。(下面具体分析为什么)我们原来要训练的参数矩阵是。✅ 答案是:因为前向传播中。换句话说:LoRA 中的。在这个过程中,损失函数。LoRA 的梯度建立在。,那我们训练时不是更新。LoRA 要训练的是。而对UV求导等价于对。原创 2025-04-06 19:25:12 · 656 阅读 · 0 评论 -
结构化剪枝(Structured Pruning)与动态蒸馏(Dynamic Distillation)
结构化剪枝通过的方式去除冗余参数,保留关键子网络。:生成规则稀疏模式(如4×4权重块),便于GPU/TPU等加速器并行计算。:模块化操作更贴近人类对神经网络功能的理解。Sgradw∣∣∇wL∣∣2SacthVarhx))Stotalα⋅Sgrad1−α⋅SactW∈R16×16通过,使小模型(学生)逐步学习大模型(教师)的全局语义与局部特征,弥补参数量差距带来的性能损失。原创 2025-04-02 16:53:34 · 1150 阅读 · 0 评论 -
LLM的Sink(水槽) Token
Sink Token 是特殊的标记(如预定义的BOS或可学习的占位符),其隐藏状态在特定维度(Dsink)上表现出异常高的激活值。这些标记会吸引大量注意力权重,但对模型最终输出的实质性贡献极低。原创 2025-04-01 21:13:01 · 635 阅读 · 0 评论 -
复合缩放EfficientNet原理详解(代码实现)
更深的网络可以学习更复杂特征,但容易导致梯度消失/爆炸问题,且计算量随深度线性增长。:深层网络训练困难,性能提升呈现明显的收益递减。更宽的网络能捕捉更丰富的特征,但参数量和计算量随通道数平方增长。:过于浅层的宽网络可能浪费计算资源,无法有效捕捉高阶特征。高分辨率输入保留更多细节,但计算量随分辨率平方增长。:分辨率过高时,特征信息冗余且计算成本激增。传统模型的浪费 :若仅增加网络深度(层数),可能导致梯度消失且计算量激增;若仅加宽通道数,参数量会平方级增长;若仅提高分辨率,冗余计算增多。原创 2025-04-01 20:29:42 · 678 阅读 · 0 评论 -
掩码图像建模 (MIM) 中的对数似然与交叉熵
目标:让模型对真实标签的预测概率尽可能高。数学实现:通过最大化对数似然(等价于最小化交叉熵损失)。代码实现:直接使用交叉熵损失函数,无需手动计算对数似然。原创 2025-04-01 14:58:13 · 862 阅读 · 0 评论 -
相对位置嵌入和旋转位置编码(RoPE)
特性相对位置嵌入旋转位置编码位置信息存储方式可学习的偏置矩阵预设的旋转角度计算复杂度OL2O(L^2)OL2OLO(L)OL长度扩展性需插值或截断天然支持任意长度显式相对位置是通过旋转隐式包含参数量随窗口大小增长零参数(仅计算)典型应用。原创 2025-03-29 17:23:42 · 648 阅读 · 0 评论 -
NLP语言模型训练里的特殊向量
在第 ( t ) 个时间步,只能看到 ( y_1, y_2, \ldots, y_{t-1} ) 这些前面的 token,不能看到未来的信息。,但它们出现在不同类型的 NLP 模型中,并承担不同的功能。在 Transformer 类模型中,DEC token 也。用于文本生成、机器翻译、问答任务(如 GPT、T5)。依赖“过去的输出”来预测下一个词,典型的自回归结构。,但它们的使用方式略有不同,取决于具体的模型和任务。这两种损失都用于 NLP 任务,但应用场景不同。,并在训练过程中通过梯度下降不断优化。原创 2025-03-29 15:34:35 · 740 阅读 · 0 评论 -
MCP(Model Context Protocol,模型上下文协议)
MCP 全称为,是由 Anthropic 推出的一项开放标准,旨在解决当前大型语言模型(LLM)只能依靠训练数据回答问题这一局限。简单来说,MCP 就像 AI 应用领域的“万能插座”或“USB-C 接口”,为 AI 模型与外部数据源、工具和服务之间提供一个统一、标准化的连接方式,从而实现实时信息获取与动态任务执行。原创 2025-03-26 18:42:46 · 742 阅读 · 0 评论 -
RAG(Retrieval-Augmented Generation)优化
RAG是通过检索来增强生成模型的能力:将用户的查询与检索过程中获取的文档见解直接整合到prompt里,输入给语言模型。原创 2024-07-18 17:20:59 · 1896 阅读 · 0 评论