自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 【大模型应用】--Agent详解

摘要: 基于大语言模型(LLM)的智能体(Agent)是能够感知环境、自主决策、调用工具并持续学习的AI系统,其核心架构包括LLM(决策引擎)、工具调用(API/函数)、动态规划(任务分解与反思)和记忆机制(短期/长期存储)。相比传统AI,智能体具备主动性与多步任务处理能力,应用场景覆盖客服、金融、科研等领域。多智能体系统通过协作分工(如协调者-工作者模式)提升效率,但面临幻觉、安全性和伦理等挑战。未来趋势聚焦多模态融合、自主性增强及人机协作,如OpenAI的GPT-4o和Meta的Llama模型正推动技术

2025-08-26 16:21:41 896

原创 【多模态大模型】--BLIP3

BLIP3针对BLIP2的三大问题进行了改进:支持多图像输入、优化损失函数、扩充数据集多样性。其核心架构采用Flamingo的Perceiver Resampler,将视觉token映射为固定数量。创新提出"任意分辨率视觉token采样"方法,通过切分patch和resize处理不同分辨率图像,确保固定长度的图像表示。训练过程分为预训练、指令微调和DPO偏好对齐三阶段。研究重点在于构建大规模数据集,提升模型性能。整体架构通过MLP连接视觉token,简化了固定数量转换过程。

2025-08-15 23:30:28 421

原创 【多模态大模型】-- BLIP系列

BLIP系列模型在多模态大语言模型领域做出了重要贡献。BLIP通过混合编码器-解码器架构融合检索、分类和生成任务,并创新性地采用自举方式清洗噪声数据。BLIP-2引入Q-Former作为预训练视觉编码器与语言模型的桥接器,通过表示学习和生成学习两阶段训练实现高效对齐。实验证明BLIP-2在多个任务上表现优异,其核心创新在于冻结预训练参数以降低计算成本。BLIP系列模型虽存在架构复杂、任务联合训练等局限,但为多模态研究提供了重要思路,平衡了模型性能与计算效率。

2025-08-14 11:41:09 831

原创 【LLM06---相对位置编码】

本文详细介绍了相对位置编码

2025-06-20 21:44:04 819

原创 【LLM05---位置编码】

本篇从底层讲解了大模型中位置编码的来源

2025-06-17 20:52:14 880

原创 【LLM训练框架---DeepSpeed】

Deepspeed训练框架简单介绍

2025-06-13 11:34:43 435

原创 【大模型03---PageAttention】

PageAttention全网最简单讲解(好吧,我也不信)。PageAttention是vLLM框架的核心技术,旨在解决大模型推理时KV-Cache内存浪费问题。传统方法需预先分配固定内存,导致利用率低(仅20%-60%)。其核心创新是引入操作系统中的分页机制,将逻辑地址映射到非连续的物理内存块,按需分配,使显存利用率提升至96%以上。

2025-06-13 08:52:37 1034

原创 【大模型02---Megatron-LM】

本节主要讲解大模型训练框架Megatron

2025-06-12 21:57:37 877

原创 【大模型01---Flash Attention】

对,就是你想的那样!这是一篇介绍Flash Attention的水文。

2025-06-10 22:09:13 993

原创 Word2Vec:将词汇转化为向量的技术

Word2Vec, 分层Softmax, 负采样, NLP优化, 模型训练

2024-12-17 19:31:00 1546 1

原创 【直观理解01】LLM中的各种对齐方式---RLHF、DPO、ReFT、RLAIF、PPO

本文旨在通过简单的语言,带你直观理解大预言模型中的各种对齐技术,包括RLHF、DPO、RLAIF、ReFT等

2024-12-13 12:35:58 945

原创 【机器学习06--贝叶斯分类器】

本章详细解释了贝叶斯分类器和朴素贝叶斯分类器,并对面试中常考的问题进行了总结,相信你定会有所收获,come on ! B!

2024-12-11 19:50:34 1554

原创 【机器学习05--支持向量机】

本篇文章详细介绍了支持向量机,并给出了面试常考的问题

2024-12-10 15:58:19 1171

原创 【机器学习04--决策树】

本片介绍了决策树的基本内容,包括特征选择和数据分类的方法,介绍了经典的ID3,C4.5,CART

2024-12-08 20:12:22 1387

原创 【机器学习03--线性模型】

本文详细介绍了机器学习中的线性模型,包括线性回归,对数几率回归,线性判别分析等内容,并距离实现了L1,L2正则化

2024-12-07 16:15:11 1384 2

原创 【机器学习02--模型评估】

本文主要介绍了机器学习中模型的评估方法,包括各种性能指标以及ROC、AUC的编程实现

2024-12-04 15:49:19 1445 1

原创 【C++笔记整理—第1期】

C++学习笔记第1期,主要回顾了结构体、类的一些简单内容

2024-06-30 11:18:02 841 2

原创 【多智能体强化学习03--基于值分解的方法】

本篇主要讲解基于值分解的多智能体强化学习方法,比如VDN,QMIX等。

2024-03-12 14:08:04 2544 1

原创 【多智能体强化学习02---训练范式+独立学习+多智能体策略梯度算法】

本篇文章详细介绍了多智能体的训练范式,独立学习算法以及多智能体策略梯度算法

2024-03-11 11:48:39 6215 1

原创 【强化学习2--基于策略梯度的方法】

本文全面介绍了基于策略梯度的深度强化学习方法。策略梯度方法适用于连续动作空间问题,直接通过神经网络拟合策略函数。文章着重解释了如何利用策略梯度定理更新策略网络的参数,以最大化预期回报。介绍了REINFORCE算法,该算法通过蒙特卡洛方法估计动作价值函数,并引入状态价值函数作为基线以降低方差。讨论了Actor-Critic方法,该方法结合了策略梯度和值函数更新。进一步,提出了A2C和PPO算法,前者优化了Actor-Critic结构且引入了熵正则化,后者则通过重要性采样简化了算法复杂度。文章通过图表和伪代码清

2024-03-09 15:48:16 1585

原创 【强化学习1--基于值的方法】

这篇文章是对强化学习学习思路的一个整理,主要介绍一下DQN算法

2024-03-02 16:15:34 1301

原创 【多智能体强化学习01---多智能体交互建模】

本篇主要介绍多智能体交互的数学建模,逐渐向MARL过渡

2024-02-25 21:16:44 2349 1

原创 全是问题的强化学习—1

本篇是对强化学习的一些思路整理,错误不少,欢迎指正!

2024-02-18 10:17:39 1012 1

原创 【Git学习-远程仓库高级操作】

本节主要介绍了Git远程仓库操作加参数形式,比如:git push origin master等

2024-02-05 14:08:58 1950 1

原创 【Git学习-与远程仓库通信】

本文通过图片展示,介绍了利用Git获取远程仓库最新修改以及推送本地修改到远程仓库的常用命令。

2024-01-30 12:09:33 1122 1

原创 Git学习-高级篇2

本章主要介绍了在Git中移动提交记录的两种方法,以及如何给你的提交记录打标签。

2024-01-28 15:23:32 1129 1

原创 Git学习-高级篇1

Git高级特性学习,本篇主要介绍了git中提交树的分支移动

2024-01-27 12:27:27 1754 1

原创 Git学习-基础篇

本文旨在用图片的形式直观的介绍git的基本用法,第一节是基础篇,后期持续更新...

2024-01-26 16:29:35 551 1

原创 Python快速入门笔记

python快速入门笔记,可以用来对python的一些基础内容进行回顾

2024-01-07 21:27:34 1089 2

论文1:MOBA游戏人机协作

论文1:MOBA游戏人机协作

2024-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除