- 博客(29)
- 收藏
- 关注
原创 【大模型应用】--Agent详解
摘要: 基于大语言模型(LLM)的智能体(Agent)是能够感知环境、自主决策、调用工具并持续学习的AI系统,其核心架构包括LLM(决策引擎)、工具调用(API/函数)、动态规划(任务分解与反思)和记忆机制(短期/长期存储)。相比传统AI,智能体具备主动性与多步任务处理能力,应用场景覆盖客服、金融、科研等领域。多智能体系统通过协作分工(如协调者-工作者模式)提升效率,但面临幻觉、安全性和伦理等挑战。未来趋势聚焦多模态融合、自主性增强及人机协作,如OpenAI的GPT-4o和Meta的Llama模型正推动技术
2025-08-26 16:21:41
896
原创 【多模态大模型】--BLIP3
BLIP3针对BLIP2的三大问题进行了改进:支持多图像输入、优化损失函数、扩充数据集多样性。其核心架构采用Flamingo的Perceiver Resampler,将视觉token映射为固定数量。创新提出"任意分辨率视觉token采样"方法,通过切分patch和resize处理不同分辨率图像,确保固定长度的图像表示。训练过程分为预训练、指令微调和DPO偏好对齐三阶段。研究重点在于构建大规模数据集,提升模型性能。整体架构通过MLP连接视觉token,简化了固定数量转换过程。
2025-08-15 23:30:28
421
原创 【多模态大模型】-- BLIP系列
BLIP系列模型在多模态大语言模型领域做出了重要贡献。BLIP通过混合编码器-解码器架构融合检索、分类和生成任务,并创新性地采用自举方式清洗噪声数据。BLIP-2引入Q-Former作为预训练视觉编码器与语言模型的桥接器,通过表示学习和生成学习两阶段训练实现高效对齐。实验证明BLIP-2在多个任务上表现优异,其核心创新在于冻结预训练参数以降低计算成本。BLIP系列模型虽存在架构复杂、任务联合训练等局限,但为多模态研究提供了重要思路,平衡了模型性能与计算效率。
2025-08-14 11:41:09
831
原创 【大模型03---PageAttention】
PageAttention全网最简单讲解(好吧,我也不信)。PageAttention是vLLM框架的核心技术,旨在解决大模型推理时KV-Cache内存浪费问题。传统方法需预先分配固定内存,导致利用率低(仅20%-60%)。其核心创新是引入操作系统中的分页机制,将逻辑地址映射到非连续的物理内存块,按需分配,使显存利用率提升至96%以上。
2025-06-13 08:52:37
1034
原创 【直观理解01】LLM中的各种对齐方式---RLHF、DPO、ReFT、RLAIF、PPO
本文旨在通过简单的语言,带你直观理解大预言模型中的各种对齐技术,包括RLHF、DPO、RLAIF、ReFT等
2024-12-13 12:35:58
945
原创 【机器学习06--贝叶斯分类器】
本章详细解释了贝叶斯分类器和朴素贝叶斯分类器,并对面试中常考的问题进行了总结,相信你定会有所收获,come on ! B!
2024-12-11 19:50:34
1554
原创 【机器学习03--线性模型】
本文详细介绍了机器学习中的线性模型,包括线性回归,对数几率回归,线性判别分析等内容,并距离实现了L1,L2正则化
2024-12-07 16:15:11
1384
2
原创 【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】
本篇文章详细介绍了多智能体的训练范式,独立学习算法以及多智能体策略梯度算法
2024-03-11 11:48:39
6215
1
原创 【强化学习2--基于策略梯度的方法】
本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题,直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数,以最大化预期回报。介绍了REINFORCE算法,该算法通过蒙特卡洛方法估计动作价值函数,并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法,该方法结合了策略梯度和值函数更新。进一步,提出了A2C和PPO算法,前者优化了Actor-Critic结构且引入了熵正则化,后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清
2024-03-09 15:48:16
1585
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅