AIWhispers-优快云博客

原创【大模型应用】--Agent详解

摘要：基于大语言模型（LLM）的智能体（Agent）是能够感知环境、自主决策、调用工具并持续学习的AI系统，其核心架构包括LLM（决策引擎）、工具调用（API/函数）、动态规划（任务分解与反思）和记忆机制（短期/长期存储）。相比传统AI，智能体具备主动性与多步任务处理能力，应用场景覆盖客服、金融、科研等领域。多智能体系统通过协作分工（如协调者-工作者模式）提升效率，但面临幻觉、安全性和伦理等挑战。未来趋势聚焦多模态融合、自主性增强及人机协作，如OpenAI的GPT-4o和Meta的Llama模型正推动技术

2025-08-26 16:21:41 896

原创【多模态大模型】--BLIP3

BLIP3针对BLIP2的三大问题进行了改进：支持多图像输入、优化损失函数、扩充数据集多样性。其核心架构采用Flamingo的Perceiver Resampler，将视觉token映射为固定数量。创新提出"任意分辨率视觉token采样"方法，通过切分patch和resize处理不同分辨率图像，确保固定长度的图像表示。训练过程分为预训练、指令微调和DPO偏好对齐三阶段。研究重点在于构建大规模数据集，提升模型性能。整体架构通过MLP连接视觉token，简化了固定数量转换过程。

2025-08-15 23:30:28 421

原创【多模态大模型】-- BLIP系列

BLIP系列模型在多模态大语言模型领域做出了重要贡献。BLIP通过混合编码器-解码器架构融合检索、分类和生成任务，并创新性地采用自举方式清洗噪声数据。BLIP-2引入Q-Former作为预训练视觉编码器与语言模型的桥接器，通过表示学习和生成学习两阶段训练实现高效对齐。实验证明BLIP-2在多个任务上表现优异，其核心创新在于冻结预训练参数以降低计算成本。BLIP系列模型虽存在架构复杂、任务联合训练等局限，但为多模态研究提供了重要思路，平衡了模型性能与计算效率。

2025-08-14 11:41:09 831

原创【LLM06---相对位置编码】

本文详细介绍了相对位置编码

2025-06-20 21:44:04 819

原创【LLM05---位置编码】

本篇从底层讲解了大模型中位置编码的来源

2025-06-17 20:52:14 880

原创【LLM训练框架---DeepSpeed】

Deepspeed训练框架简单介绍

2025-06-13 11:34:43 435

原创【大模型03---PageAttention】

PageAttention全网最简单讲解（好吧，我也不信）。PageAttention是vLLM框架的核心技术，旨在解决大模型推理时KV-Cache内存浪费问题。传统方法需预先分配固定内存，导致利用率低（仅20%-60%）。其核心创新是引入操作系统中的分页机制，将逻辑地址映射到非连续的物理内存块，按需分配，使显存利用率提升至96%以上。

2025-06-13 08:52:37 1034

原创【大模型02---Megatron-LM】

本节主要讲解大模型训练框架Megatron

2025-06-12 21:57:37 877

原创【大模型01---Flash Attention】

对，就是你想的那样！这是一篇介绍Flash Attention的水文。

2025-06-10 22:09:13 993

原创 Word2Vec：将词汇转化为向量的技术

Word2Vec, 分层Softmax, 负采样, NLP优化, 模型训练

2024-12-17 19:31:00 1546 1

原创【直观理解01】LLM中的各种对齐方式---RLHF、DPO、ReFT、RLAIF、PPO

本文旨在通过简单的语言，带你直观理解大预言模型中的各种对齐技术，包括RLHF、DPO、RLAIF、ReFT等

2024-12-13 12:35:58 945

原创【机器学习06--贝叶斯分类器】

本章详细解释了贝叶斯分类器和朴素贝叶斯分类器，并对面试中常考的问题进行了总结，相信你定会有所收获，come on ! B!

2024-12-11 19:50:34 1554

原创【机器学习05--支持向量机】

本篇文章详细介绍了支持向量机，并给出了面试常考的问题

2024-12-10 15:58:19 1171

原创【机器学习04--决策树】

本片介绍了决策树的基本内容，包括特征选择和数据分类的方法，介绍了经典的ID3,C4.5,CART

2024-12-08 20:12:22 1387

原创【机器学习03--线性模型】

本文详细介绍了机器学习中的线性模型，包括线性回归，对数几率回归，线性判别分析等内容，并距离实现了L1,L2正则化

2024-12-07 16:15:11 1384 2

原创【机器学习02--模型评估】

本文主要介绍了机器学习中模型的评估方法，包括各种性能指标以及ROC、AUC的编程实现

2024-12-04 15:49:19 1445 1

原创【C++笔记整理—第1期】

C++学习笔记第1期，主要回顾了结构体、类的一些简单内容

2024-06-30 11:18:02 841 2

原创【多智能体强化学习03--基于值分解的方法】

本篇主要讲解基于值分解的多智能体强化学习方法，比如VDN,QMIX等。

2024-03-12 14:08:04 2544 1

原创【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】

本篇文章详细介绍了多智能体的训练范式，独立学习算法以及多智能体策略梯度算法

2024-03-11 11:48:39 6215 1

原创【强化学习2--基于策略梯度的方法】

本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题，直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数，以最大化预期回报。介绍了REINFORCE算法，该算法通过蒙特卡洛方法估计动作价值函数，并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法，该方法结合了策略梯度和值函数更新。进一步，提出了A2C和PPO算法，前者优化了Actor-Critic结构且引入了熵正则化，后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清

2024-03-09 15:48:16 1585

Jin的博客

原创【大模型应用】--Agent详解

原创【多模态大模型】--BLIP3

原创【多模态大模型】-- BLIP系列

原创【LLM06---相对位置编码】

原创【LLM05---位置编码】

原创【LLM训练框架---DeepSpeed】

原创【大模型03---PageAttention】

原创【大模型02---Megatron-LM】

原创【大模型01---Flash Attention】

原创 Word2Vec：将词汇转化为向量的技术

原创【直观理解01】LLM中的各种对齐方式---RLHF、DPO、ReFT、RLAIF、PPO

原创【机器学习06--贝叶斯分类器】

原创【机器学习05--支持向量机】

原创【机器学习04--决策树】

原创【机器学习03--线性模型】

原创【机器学习02--模型评估】

原创【C++笔记整理—第1期】

原创【多智能体强化学习03--基于值分解的方法】

原创【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】

原创【强化学习2--基于策略梯度的方法】

原创【强化学习1--基于值的方法】

原创【多智能体强化学习01---多智能体交互建模】

原创全是问题的强化学习—1

原创【Git学习-远程仓库高级操作】

原创【Git学习-与远程仓库通信】

原创 Git学习-高级篇2

原创 Git学习-高级篇1

原创 Git学习-基础篇

原创 Python快速入门笔记

论文1：MOBA游戏人机协作

空空如也