自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(241)
  • 资源 (12)
  • 收藏
  • 关注

原创 THUNLP_Multimodal_Excercise

该方法首先使用正负样本对训练一个打分模型(reward model),再利用打分模型给出的得分,对大模型的回复进行优化,优化目标是提升大模型回复在打分模型评判下的得分,同时不要与原始的模型参数相差太远。这样可以增强模型的表示能力,允许不同的头关注输入序列的不同部分。本次任务中,将提供一个不完整的多模态大模型结构及微调代码,请根据要求,补全过程中的关键步骤,并在提供的数据上实现简单的微调与推理。在偏好对齐训练阶段,通过收集一系列的正负样本对,对模型的输出进行双向的监督,从而更有效的控制模型的输出。

2025-04-03 18:45:14 543

原创 从 AlexNet 到 Swin Transformer:计算机视觉架构演进图谱

在计算机视觉领域,模型架构的演进宛如一场精彩绝伦的技术接力赛,从早期的 CNN 逐步过渡到如今大放异彩的 Transformer,每一次关键节点的突破都为整个领域注入了强大的动力,推动着视觉任务的性能迈向新的高度。本文将沿着时间轴,梳理这一演进路径中具有里程碑意义的模型以及 Transformer 的突破性成果,展现技术迭代的脉络。

2025-03-31 16:21:53 738

转载 LLAVA复现!从0到1训练一个的多模态大模型(超越LLAVA 1.5)

本项目从0开始训练了一个MMMU分数超过llava-1.5的qllava模型,和llava相比差别在于LLM变成了qwen2。

2025-03-28 10:59:38 34

原创 全面系统梳理多模态LLM对齐算法

2025-03-25 17:50:31 142

原创 KL(Kullback-Leibler)散度和交叉熵

信息增益是在决策树算法中用于选择最佳特征的一种评价指标。在决策树的生成过程中,选择最佳特征来进行节点的分裂是关键步骤之一,信息增益可以帮助确定最佳特征。信息增益衡量了在特征已知的情况下,将样本集合划分成不同类别的纯度提升程度。它基于信息论的概念,使用熵来度量样本集合的不确定性。具体而言,信息增益是原始集合的熵与特定特征下的条件熵之间的差异。在决策树的生成过程中,选择具有最大信息增益的特征作为当前节点的分裂标准,可以将样本划分为更加纯净的子节点。

2025-03-24 16:56:17 625

原创 解析 Qwen 大模型家族和Qwen-VL系列

当每个人都在谈论 DeepSeek-R1 在模型推理方面的里程碑时,阿里巴巴的 Qwen 模型却一直被掩盖。尽管没有过多的喧嚣,Qwen 模型凭借其开源特性以及在代理功能方面的独特优势,正悄然崛起。从一开始,Qwen 模型的研发团队就致力于使其具备工具使用等代理能力,这种前瞻性思维使得 Qwen 模型在人工智能领域展现出了独特的潜力。本文将深入探讨 Qwen 模型的发展历程,以及其如何通过 Qwen-Agent 框架实现强大的推理能力,与 OpenAI 和 DeepSeek 等先进模型相媲美甚至超越。

2025-03-24 14:24:59 819

原创 多模态大模型常见问题

优点:Q-Former 通过查询机制有效融合了视觉和语言特征,使得模型能够更好地处理视觉-语言任务,尤其是在多模态推理任务中表现优秀。缺点:相较于 Q-Former,MLP 在处理复杂的视觉-语言融合任务时效果较差,尤其是在推理任务中。c.增强推理能力训练:进一步训练模型以增强其处理复杂推理任务(如图像中的逻辑推理)的能力。a.视觉-语言联合训练:使用大量的图像-文本对进行联合训练,以学习图像和文本之间的对齐。b.图像生成与理解训练:模型被训练以生成描述图像的文本,并理解不同的视觉任务。

2025-03-21 14:53:52 610

原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。

2025-03-17 14:56:43 801

原创 RLHF17问

RLHF?为什么要用它训练语言模型?解析:RLHF(基于人类反馈的强化学习)通过人类偏好数据优化模型,解决传统语言模型无法直接优化复杂目标(如“有趣且无害”)的问题。其核心价值在于:将模糊的人类价值观转化为可量化的奖励信号。使模型生成更安全、有用、符合伦理的文本。Q2:为什么 RLHF 比监督微调(SFT)更适合复杂任务?解析:SFT 局限:需明确“标准答案”,无法处理多目标(如“幽默且严谨”)。RLHF 优势:通过人类偏好数据定义复杂目标。模型在试错中学习权衡不同目标。

2025-03-17 14:28:22 759

原创 通俗理解 RLHF,以及如何实现一个 PPO 算法

Critic model:Reward_model 的一个复制。

2025-03-14 14:25:20 877

原创 PPO & GRPO原理

通过这个小学考试的比喻,我们逐步从。

2025-03-14 14:10:58 622

原创 视觉语言模型VLM发展脉络

现代社会,双眼摄入的信息量大概可能是其他所有感官之和,而视觉信息最重要的两种载体——图片和文本是我们打开AGI的大门。当前LLM时代已经将人类的语言和思维掌握的很好,但是目前来看在图像感知、理解、生成方面仍有很大不足。

2025-03-12 10:29:53 1189

原创 多模态理解-Qwen-VL系列:Qwen-VL, Qwen2-VL, Qwen2.5-VL

Qwen-VL基于预训练好的Qwen-7B,支持等功能。

2025-03-10 16:29:01 929

原创 siglip2推理教程

一定要按照下面的方法安装(或者从源码安装),否则会报错,试了其他几种方法都不行git clone https://github.com/huggingface/transformers.gitcd transformerspip install -e .安装完有下面提示即可:Successfully installed transformers-4.50.0.dev0 地址:https://huggingface.co/google/siglip2-base-patch16-224/tree/m

2025-03-07 11:31:38 380

原创 推导一下C=6ND

Scaling Laws的核心概念是:随着模型规模、数据集规模和训练所需的计算量(浮点运算数,Flops)的增加,模型的性能会提升。为了获得最佳的模型表现,必须同时增加这三者。当其他因素不受限制时,模型性能与每个单独的因素之间存在幂律关系。为了训练一个模型并期望得到较低的损失,我们通过Scaling Law来计算所需的计算量C,达到该计算量后,再定义模型参数,从而推算出所需的训练数据量。假设模型的参数如下:总结:通过上述推导,我们得出大模型中,计算量C、模型参数N和数据量D之间的关系为C = 6ND。

2025-03-06 10:14:01 411

原创 一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO

强化学习技术全面解读

2025-02-26 14:20:57 851

原创 多模态大模型总体范式

多模态大模型(multi modality llm),罗列当前的主流多模态大模型(vision-language model),总结当前多模态大模型的训练范式: 训练数据集、预训练任务、多模态大模型架构(融合等方面)、相关的多模态大模型。MM-LLMs 的一般模型架构及每个组件的实现选择多模态模型架构分类。概述了四种不同类型的多模态架构及其子类型。各种模型被系统地归类到类型和子类型中。

2025-02-25 14:20:42 1035

原创 MiniCPM-O-2.6代码阅读详解

它的作用是存储之前计算过的 Key 和 Value 向量,避免在生成新 token 时重复计算历史 token 的 Key 和 Value,从而显著提高推理效率。其中self.resampler是一个 2D perceiver-resampler网络,主要目的是能够处理高维输入(如图像、音频等),通过将输入映射到低维的潜在空间来减少计算复杂度,并用于从输入中提取关键信息且重新采样到固定数量的查询(queries)。,主要功能是对输入图像进行预处理,将其转换为模型可接受的格式。用于缓存之前音频帧的。

2025-02-19 10:06:52 478

原创 强化学习视频教程链接

比较容易听懂,数学公式很多,讲的比较细,可以多看几遍。

2025-02-17 17:57:01 160

原创 大模型基础面试问题汇总

PEFT(Parameter-Efficient Fine-Tuning)是一种只对模型的少量参数进行微调的技术,通常用于减少计算成本和存储需求。常见的 PEFT 技术包括:LoRA(Low-Rank Adaptation):通过将权重矩阵分解成两个低秩矩阵,仅对分解后的部分进行训练,减少需要更新的参数数量。Adapter:在 transformer 层之间插入小的、独立的子网络,只微调这些子网络而不改变主模型的参数。BitFit:仅对模型的偏置参数进行微调,适用于资源有限的场景。

2025-02-10 15:43:41 1055

原创 强化学习和微调概念

强化学习(RL)是一种机器学习方式,人工智能通过采取行动,并根据这些行动获得奖励或惩罚来进行学习,其目标是在一段时间内最大化奖励。举个例子:想象教一个机器人玩游戏,机器人尝试不同的动作,每做出一个好的动作(比如得分),它就能获得奖励(比如加1分);而做出不好的动作(比如失分),就会受到惩罚(比如扣1分)。随着时间推移,机器人会逐渐学会哪些动作能带来最高分,从而更擅长玩这个游戏。微调模型,就是在一个已经预训练好的人工智能模型基础上,进行一些小的调整,让它在特定任务上表现得更好。

2025-02-06 10:41:28 511

原创 概率最大化方法

设词典为 D,输入文本为 {w1, w2, w3, ..., wN },第 i 轮自回归中输出的向量为模型在M 轮自回归后生成的文本为生成文档的出现的概率可由下式进行计算。基于概率最大化的解码方法旨在最大化以生成出可能性最高的文本。该问题的搜索空间大小为 MD,是 NP-Hard 问题。现有概率最大化方法通常采用启发式搜索方法。本节将介绍两种常用的基于概率最大化的解码方法。

2025-01-23 17:19:53 313

原创 BERT中的多头注意力机制-为什么需要多头?

多头注意力机制通过并行处理多个子空间的信息,提高了模型的学习能力和灵活性。虽然它的计算量看似更大,但实际操作中可以通过硬件加速等方式有效管理。相比之下,直接使用一个大矩阵进行统一计算可能会限制模型捕捉多样化的信息能力。如果你需要具体的代码示例来理解多头注意力机制的具体实现细节,我可以为你提供一个简化版的PyTorch实现。

2025-01-23 14:49:16 358

原创 为什么vllm能够加快大模型推理速度?

如果对比过 vllm 进行大模型推理 和 直接调用模型generate 就会知道 vllm可以让推理速度比直接调用模型generate快2-4倍。那问题来了,?

2025-01-23 14:46:22 1006

原创 pytorch 多机多卡训练方法

在深度学习训练中,使用多机多卡(多台机器和多块 GPU)可以显著加速模型训练过程。

2025-01-21 15:34:42 783 1

原创 CV面试、就业经验分享

CV面试、就业经验分享

2025-01-20 14:24:09 674

原创 大模型(LLMs)强化学习面

基于人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF):构建人类反馈数据集, 训练一个激励模型,模仿人类偏好对结果打分,这是GPT-3后时代大语言模型越来越像人类对话核心技术。

2025-01-13 14:22:36 529

原创 分类问题的label为啥必须是 one hot 形式?

正好前不久看到的一篇文章有涉及到类似的问题,讨论了对率回归中损失函数的两种形式:逻辑回归损失函数的两种形式。在二分类中,标签可以表示为{0,1},有时也表示为{-1, 1}。把视角切换回多分类的问题中,为了贴合交叉熵的诠释,你常常看到使用一个one-hot向量表示一个标签代表的ground truth概率分布。只探讨在一般nn框架内分类问题的标签如何表示的问题。是ground truth的下标而不是one-hot编码。假设第i个样本的类别对应的是第k个类,那这个交叉熵损失展开实际上变成一个很简单的形式。

2025-01-06 17:56:11 267

原创 算法环境安装GPU驱动、CUDA、cuDNN、Docker及NVIDIA Container Toolkit

【代码】算法环境安装GPU驱动、CUDA、cuDNN、Docker及NVIDIA Container Toolkit。

2024-12-30 11:30:17 968

原创 R200推理

1.下载镜像wget2.解压镜像3.加载镜像4.启动容器5.激活环境6.验证上述环境是否已安装成功import tvm。

2024-12-23 14:42:13 553

原创 知识扩充(杂图合集)

2024-12-23 14:35:01 223

原创 海思AI开发NNIE 模型转换问题记录

pooling层输出尺寸的计算公式如下:当不能整除(输入或卷积核为奇数)时,pytorch默认是floor,而caffe默认是ceil,因此会出现onnx2caffe转换后输出尺寸比pytorch大1的情况。如果训练端发现该问题,可以pytorch的pooling设置为如果部署端发现该问题,不想重新修改模型retrain,则需要手动修改prototxtfloor。

2024-12-16 11:52:17 675

原创 DPO算法原理及与PPO算法的区别

是一种强化学习中策略梯度算法,旨在在提高模型参数更新效率的同时,保持模型训练的稳定性。PPO通过引入一个 区间限制(clip)的目标函数,防止策略参数更新过大,导致策略崩溃。DPO算法通过直接利用人类的偏好数据,构建了一个简单而有效的策略优化方法,避免了训练奖励模型的复杂性。其核心是最大化偏好输出与不偏好输出的概率差,使策略更倾向于生成被人类偏好的结果。相比之下,PPO算法是一种通用的强化学习策略优化算法,通过限制策略更新的幅度,确保训练的稳定性。PPO通常需要明确的奖励信号,并需要与环境进行大量交互。

2024-12-13 15:50:36 1953

原创 ocr中CTC解码相关

【代码】ocr中CTC解码相关。

2024-12-12 15:17:55 355

原创 Transformer水一水简单的20题

2024-12-11 14:08:42 101

原创 深度对比: SFT、ReFT、RHLF、RLAIF、DPO、PPO

(Direct Preference Optimization,直接偏好优化)不使用强化学习算法,而是直接利用人类的偏好数据,通过优化目标函数,使模型输出更符合人类偏好。相比之下,监督学习的方法更直接高效:通过人类提供的偏好数据,直接告诉模型什么是好的输出,构建损失函数,调整模型参数。总结:四种方法中,ReFT、RLHF和RLAIF都使用了PPO作为强化学习算法,区别在于奖励信号的来源不同:ReFT来自自动化程序的评估,RLHF来自人类反馈,RLAIF来自AI模型的反馈。采用监督学习,可以更快地达到目标。

2024-12-09 17:10:58 1365

原创 Attention 升级面

Multi-Query Attention 在所有注意力头上 共享 key 和 value.

2024-12-09 11:35:15 946

原创 OmniVision (968M):世界最小视觉语言模型

OmniVision-968M 已于 2024 年 11 月 21 日进行了重大升级,带来了多项改进和新功能。

2024-12-04 10:41:51 1292

原创 LLMs 激活函数篇

各LLMs 都使用哪种激活函数?

2024-12-02 14:45:07 286

原创 LLM相似度函数篇

对比学习是一种无监督学习方法,通过训练模型使得相同样本的表示更接近,不同样本的表示更远 离,从而学习到更好的表示。• 降低负样本的构造成本:通过设计更高效的负样本生成算法或采样策略,减少负样本的构造成 本。然而,负样本的构造成本可能会较高,特别是在一些领域和 任务中。• 确定关键负样本:根据具体任务的特点,可以重点关注一些关键的负样本,而不是对所有负样 本进行详细的构造。• 迁移学习和预训练模型:利用预训练模型或迁移学习的方法,可以在其他领域或任务中利用已 有的负样本构造成果,减少重复的负样本构造工作。

2024-12-02 14:34:01 382

cnn学习讲义

cnn学习讲义,入门很不错

2016-05-29

《模式识别与智能计算的MATLAB实现》

《模式识别与智能计算的MATLAB实现》理论联系实际,较为全面地介绍了现代模式识别和智能计算方法及其应用技巧。通过大量实例,讲解了模式识别和智能计算的理论、算法及编程步骤,并提供基于MATLAB的源代码。

2015-01-10

C程序设计语言(he_C_Programming_Language)

C程序设计语言(he_C_Programming_Language),一本很不错的学习C语言的书籍

2014-12-21

图像拼接算法

图像拼接方法和代码,可用于学习和参考,现在的拼接算法大致都差不多!

2014-12-20

21天学通C#

21天学通C#书籍,可用于参考和学习,很不错的c#入门书籍

2014-12-20

字符识别源码

用于做字符识别的源码,可以作为学习和参考的资料!还很不错

2014-12-20

基于OpenCV的计算机视觉技术实现

基于OpenCV的计算机视觉技术实现,是一本很不错的书籍,可以学习

2014-12-12

OpenCV2.0中机器学习函数与类

OpenCV2.0中机器学习函数与类,用于学习opencv2.0及以上的版本的opencv。讲解的很详细

2014-12-12

图像拼接算法及实现

图像拼接算法及实现,可以实现两幅图像的拼接,可以下下来看看

2014-12-12

指针和引用的区别

这个课件详细的介绍了指针和引用的区别,对于C/C++的初学者来说,有很大的帮助,值得学习!

2014-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除