- 博客(82)
- 收藏
- 关注
原创 声音理解大模型MiDashengLM: Efficient Audio Understanding with General Audio Captions论文理解和翻译
1、如何得到:仅依赖于公开的预训练和监督微调(SFT)数据集进行训练得到的MiDashengLM 2、关键核心:集成了一个专门设计用于有效处理各种听觉信息的开源音频编码器—Dasheng 3、处理策略:将语音、声音和音乐信息融合成一个文本表示形式,从而实现了复杂音频场景的整体文本表征 4、速度/时延:比同类模型快4倍的首个token预测时间(TTFT)和高达20倍的吞吐量
2025-08-13 01:02:38
749
原创 多模态大模型综述:InstructBLIP详解(第三篇)
1、做了什么:LLM可以做指令微调,VLM之前不可以,开发了VLM的Instruct turning的框架 2、怎么做:基于BLIP2模型,引入了一个instruction-aware Query Transformer模块,让文本特征指导图像特征的提取 3、取得了什么结果:InstructBLIP 在13 个数据集上取得了SOTA的结果,显著优于 BLIP-2 和Flamingo ,且开源所有模型
2025-08-07 00:33:13
1002
原创 多模态大模型综述:BLIP-2详解(第二篇)
1、为什么提出: VLM全参训练参数量太大,直接训练有问题 2、怎么做: 增加一个Qformer模块大幅度减少参数量(54x) 3、怎么训练: 继承BLIP的预训练+图文生成式预训练 4、什么结果: 训练速度超快且效果SOTA
2025-08-03 23:57:22
806
原创 多模态大模型综述:VIT/BLIP详解(第一篇)
1、详细介绍了多模态encoder的,本文只包括VIT和BLIP 2、VIT通过将输入图片切成patch+位置向量,将分类任务转换为序列预测任务 3、BLIP同时包括图文对比学习、图文分类、图文生成学习3个任务进行联合训练,并开发了一个利用带噪音数据的pipeline
2025-08-01 01:06:15
766
原创 数据合成-Self-Instruct:Aligning Language Modelswith Self-Generated Instructions 低成本指令集合成
1、为什么要做?模型严重依赖人工编写的指令数据,指令数据在数量、多样性和创造性方面存在局限 2、怎么做?通过利用语言模型自身的生成结果进行自举,提升预训练语言模型的指令遵循能力 3、具体流程:从语言模型中生成指令、输入和输出样本,过滤无效或相似的样本后,再用这些样本对原始模型进行微调 4、取得了什么结果?应用于基础版 GPT-3,实现了 33% 的绝对提升,与 InstructGPT-001 的性能相当
2025-07-30 00:37:54
742
原创 CLAP文本-音频基础模型: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION
1、现在的做法有什么问题?主流范式是 “一个类别标签对应多个录音”,需要提前标注+预测预先定义的类别,只能做闭集理解,失去灵活性 2、我们怎么做?通过两个编码器和对比学习机制建立语言与音频的关联,将音频和文本描述映射到一个联合的多模态空间进行对齐 3、做得怎么样?12.8 万对音频 - 文本训练,在8 个领域的 16 项下游任务中评估,即使训练数据小于CV模型,Zero-Shot上达到了SoTA。finetune后在5项评估任务中也是SOTA能做什么?
2025-07-27 21:58:20
770
原创 多模态大模型数据合成-Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis论文翻译和理解
11、为什么做数据合成?MLLMS的性能归功于大规模的训练数据,但是数据不开源且标注成本很高 2、怎么做?仅向多模态大语言模型输入图像作为提示,同时控制指令质量,就能够生成高质量多模态指令集 3、实验成果:收集了超过 50 万条数据,并通过消融实验论证方法有效(在垂直领域有效、在通用领域也有效、控制指令的质量有效、回收caption也有效)
2025-07-23 01:06:47
658
原创 详解大模型的位置编码-positional encoding
1、为什么要有位置编码:需要知道绝对位置信息、相对位置信息和不同位置之间的距离 2、位置编码需要有什么特点:用来表示绝对位置、相对位置和距离、表示从没看过的句子长度 3、有什么类型的位置编码:绝对位置编码、相对位置编码ALiBi和旋转位置编码RoPE 4、会遇到什么问题?长度外推问题 5、怎么解决?直接外推、线性内插、进制转换、位置线性内插和NTK-Aware scaled RoPE
2025-07-13 22:19:35
973
原创 CV大模型预训练scaling law:On Data Scaling in Masked Image Modeling论文翻译和理解
1、自监督学习的重要目标是模型预训练能够从几乎无限的数据中受益。 2、CV领域与LLM同样存在scaling law曲线,并不是无法从大规模数据中受益 3、MIM的大型模型需要更多的数据和更长的训练,如果训练次数不够,扩大数据量意义不大 4、预训练中的验证损失是衡量模型在多个任务上微调表现的一个良好指标<验证损失和下游任务性能存在负相关>
2025-06-30 00:58:39
2976
原创 CV大模型预训练MAE:Masked Autoencoders Are Scalable Vision Learners论文理解和翻译
1、提出一种用于CV的可扩展自监督学习方案Masked AutoEncoders(MAE) 2、这种可扩展的方法允许学习具有高容量的模型,这些模型具有良好的泛化能力 3、ViT-Huge模型在仅使用ImageNet-1K数据的方法中实现了最高的准确率(87.8%),在下游任务中的迁移性能超过了监督预训练
2025-06-29 15:48:54
3266
原创 CV大模型预训练-DINOv2: Learning Robust Visual Featureswithout Supervision 论文翻译和解读
1、提供了一个有效的数据收集/清洗的pipeline,借助这个pipeline也获得了高质量的数据集LVD-142M 2、提出了一种新的判别式-自监督预训练方法,本质上是在DINO+iBOT等多个自监督方法的组合 3、给出了SOTA自监督方法的在各类下游任务benchmark,且给出了蒸馏过后的小模型的涨点指标 4、开源了一系列高性能的预训练模型
2025-06-26 01:13:53
3125
原创 大模型应用:如何使用Langchain+Qwen部署一套Rag检索系统
1、从0-1使用qwen chat model+ langchain的链式架构搭建一套rag系统 2、详细介绍了Langchain的工具链的调用流程 3、简单介绍了可能会出现什么问题
2025-06-22 23:03:00
1466
原创 RAG综述(下篇):Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译
上一篇讲了RAG的工作流、RAG的分类和发展趋势,这一片主要讲RAG检索的细节:1、在检索器里面如何实现高效、高准确度的检索2、在生成器里面如何实现将检索到的信息转换成流程的文本输出3、如何评估这是一个好的RAG和对应的下游任务评估指标
2025-06-20 00:34:46
1446
原创 RAG综述(上篇):Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译
1、为什么要做RAG:LLMs面临着幻觉、过时知识和不透明、不可追溯的推理过程等挑战 2、RAG如何提升性能:通过整合持续更新的外部数据库的知识和特定领域信息,增强了模型的准确性和可信度 3、RAG的范式和发展:Naive RAG、Advanced RAG和Modular RAG,这三种范式之间的关系是继承和发展的关系。 4、不同RAG的局限性和解决手段:三个RAG范式引入了什么模块具体解决了什么问题
2025-06-18 00:14:36
1618
原创 数据质量-如何构建高质量的大模型数据集
1、重要性:数据质量 > 数据数量 2、数据质量提升原则:提升数据多样性和分布和提升数据质量和高质量数据数量 3、具体如何提升:针对传统NN任务、LLM任务和MLLMs任务,方法和侧重点不一样 4、如何使用这些方法:将这些方法做成算子写入pipeline框架进行大规模使用
2025-06-15 22:34:09
1909
原创 大模型是SFT好还是Retrieval好?Fine-Tuning or Retrieval?Comparing Knowledge Injection in LLMs
1、LLMs 在其预训练权重中包含了大量的事实信息,这种知识本质上是有限的2、SFT和 RAG是改进 LLMs的重要方法,RAG比无监督微调要好 3、LLMs 在无监督微调中难以学习新的事实信息(很难直接对他进行知识注入,严格意义上来说是引入对特定领域的偏好来“刷新”其记忆)4、训练集的repeat是有意义的,改写prompt来重复能够增强模型性能5、VLM和LLM一样也不需要sft?我持怀疑态度
2025-06-09 00:46:55
1582
原创 分词算法总结:不同分词算法的优点和缺点
分词算法总结:1、总结不同分词算法的优点和缺点2、word-based/Character based/Subword-based Tokenizers
2025-06-08 22:33:12
1784
原创 分词算法BBPE详解和Qwen的应用
1、BPE有什么问题:依旧会遇到OOV问题,并且中文、日文这些大词汇表模型容易出现训练中未出现过的字符2、Byte-level BPE怎么解决:与BPE一样是高频字节进行合并,但BBPE是以UTF-8编码UTF-8编码字节序列而非字符序列3、Byte-level BPE利用utf-8编码,利用动态规划解码,最大程度的还原字符的语义和上下文信息(这是我理解为什么LLM能够通过NTP进行理解的最主要原因)4、Qwen是使用BBPE算法,增加了中文的能力,词汇表包括151,643 tokens
2025-06-02 15:30:35
2099
原创 分词算法BPE详解和CLIP的应用
1、BPE通过替换相邻最频繁的字符和持续迭代来实现压缩2、CLIP对text进行标准化和预分词后,对每一个单词进行BPE编码和查表,完成token_id的转换3、LLama和InternVL根据paper和代码推断也是使用BPE分词算法
2025-05-25 19:30:55
2065
原创 理想AI Talk第二季-重点信息总结
1、理想为什么要做自己的基模:座舱家庭等特殊VLM场景,deepseek/openai没有解决2、理想的基模参数量:服务端-300B,VLencoder-32B/3.6B,日常工作使用-300B,VLA-4B3、为什么自动驾驶可以达成:规则已知,类比机器人的自由度小,能够做的比人好4、VLA如何训练:基座模型pretrain、VLA后训练,强化学习训练,最后是agent5、讲了很多公司的理念,我觉得挺好的,但是这部分就不在本文体现了
2025-05-19 00:08:35
1067
原创 大模型的scaling laws:Scaling Laws for Neural Language Models
1、Loss与模型size、数据集大小以及用于训练的计算量呈幂律关系其他架构细节,如网络宽度或深度,在较宽范围内影响极小2、简单的公式可以描述过拟合与模型/数据集大小的依赖关系,以及训练速度与模型大小的依赖关系3、作用:固定计算预算的最优分配。更大的模型显著更样本高效4、记住标红的小节结论就行了,重要的是结论和学习如何做消融实验的思路
2025-04-28 22:42:12
1875
原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models论文理解
1、InternVL3采用了一种原生的多模态预训练范式,在预训练阶段就从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力2、InternVL3引入了可变视觉位置编码(V2PE)以支持扩展的多模态上下文,采用了先进的post training技术(SFT+MPO)3、InternVL3在多种多模态任务中表现卓越,InternVL3-78B在MMMU基准测试中获得了72.2分,与闭源商业模型相比也具备高竞争力
2025-04-16 00:19:26
1157
原创 Qwen2.5-VL Technical Report 论文翻译和理解
1、Qwen2.5-VL是QwenVL的最新模型,在视觉识别、精准目标定位、稳健文档解析以及长视频理解等方面实现了重大突破2、引入了动态分辨率处理和绝对时间编码,使其能够处理不同尺寸的图像以及长达数小时的视频,并实现秒级事件定位3、数据集上建立了一个自动化filter的流程,使得模型能够获取高质量数据4、在现实世界场景(如操作计算机和移动设备)中具备推理、工具使用和任务执行能力。可在不同领域实现强大的zero-shot泛化能力
2025-04-13 21:58:15
1325
原创 ChatRex: Taming Multimodal LLM for Joint Perception and Understanding 论文理解和翻译
1、MLLM在感知方面存在不足,比如Qwen2-VL在coco上recall只有43.9%2、2提出了ChatRex,旨在从模型设计和数据开发两个角度来填补这一感知能力的缺口3、ChatRex通过proposal边界框输入到LLM中将其转化为retrieval任务4、构建了一个data-engine,提出了Rexverse-2M数据集,支持了感知和理解的联合训练。
2025-04-13 00:10:17
1114
原创 InternVideo2.5:Empowering Video MLLMs with Long and Rich Context Modeling
1、InternVideo2.5通过LRC建模来提升MLLM的性能。2、层次化token压缩和任务偏好优化(mask+时空 head)整合到一个框架中,并通过自适应层次化token压缩来开发紧凑的时空表3、MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显
2025-04-09 00:01:00
1906
原创 数据质量:From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct
在大型语言模型(LLMs)的领域中,指令数据的质量与数量之间的平衡是一个关键点。1、提出了一种自我引导的方法,使LLMs能够自主识别并从开源数据集中选择最佳样本,从而有效减少人工策划和对LLMs指令微调的潜在成本。2、指令遵循难度(IFD)指标成为识别模型预期响应与其内在生成能力之间差异的关键指标。3、通过应用IFD,在Alpaca和WizardLM等数据集上模型仅使用原始数据5%-10%的樱桃数据就可以达到全量数据微调的效果
2025-04-07 23:15:27
988
1
原创 数据蒸馏:Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching
1、数据集蒸馏只有在合成样本的总数极小时才有效。由于如此少的样本所能包含的信息有限,似乎要实现真正无损的比较难2、本研究提出了一种合成数据集规模增长仍保持有效的蒸馏方法算法,并阐明了现有方法为何无法生成更大规模、高质量的合成数据集。3、轨迹匹配是最SOTA的方法,即优化合成数据以诱导与真实数据相似的长期训练动态。但区分早期轨迹和后期轨迹,4、将生成模式的难度与合成数据集的大小相匹配。通过这样做,我们首次成功地将基于轨迹匹配的方法扩展到更大的合成数据集,实现了无损数据集蒸馏
2025-04-06 23:34:40
1494
原创 数据蒸馏:Dataset Distillation by Matching Training Trajectories 论文翻译和理解
1、数据集蒸馏的任务是合成一个较小的数据集,使得在该合成数据集上训练的模型能够达到在完整数据集上训练的模型相同的测试准确率,号称优于coreset的选择方法2、本文中,对于给定的网络,我们在蒸馏数据上对其进行几次迭代训练,预先计算并存储在真实数据集上训练的专家网络的训练轨迹,并根据合成训练参数与在真实数据上训练的参数之间的距离来优化蒸馏数据。3、有一个问题哈,这种蒸馏方法强依赖GT,如果新增数据优化模型,没有GT可能还是只能使用coreset的方法来做
2025-04-05 23:03:01
1058
原创 大模型高质量rag构建:A Cheat Sheet and Some Recipes For Building Advanced RAG
1、给出了典型的基础rag并定义了2条rag是成功的要求2、基于2条rag的成功要求给出了构建高级rag的相关技术,包括块大小优化、结构化外部知识、信息压缩、结果重排等3、对上述所有的方法,给出了llama的demo代码和相关的其他参考链接
2025-03-31 23:35:51
1013
原创 数据蒸馏:Dataset Distillation with Neural Characteristic Function: A Minmax Perspective论文理解
1、基于分布的数据蒸馏效果比较好,但是距离度量往往无法准确的捕捉分布差异,导致不可靠性2、本文将数据集蒸馏表述为minmax优化问题,引入了神经特征函数差异(NCFD),实现了合成样本的真实性和多样性的平衡(就是生成了更接近真实数据的压缩后数据)3、在低分辨率和高分辨率数据集上达到SOTA,GPU内存使用量减少了300x,速度提升20x,仅使用2.3GB的显存2080TI在CIFAR100上无损压缩
2025-03-31 00:17:08
1906
原创 大模型思维链COT:Chain-of-Thought Prompting Elicits Reasoningin Large Language Models
1、探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力2、2在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现3、解释了一下为什么COT有效,见3.3节:老实说我觉得全是猜测4、给出了一些局限性:比如模型参数超过1000亿才work,cot并不是真正的模仿人类在推理等等;
2025-03-25 23:29:03
1331
2
原创 大模型RLHF训练-PPO算法详解:Proximal Policy Optimization Algorithms
1、提出了一种新的策略梯度方法家族,用于强化学习,这些方法交替进行与环境交互采样数据2、提出了一个新的目标函数,使得能够进行多个小批量更新的多轮训练3、这些新方法为近端策略优化(Proximal Policy Optimization,PPO),它们具有一些信任域策略优化的优点4、证明PPO优于其他在线策略梯度方法,并且总体上在样本复杂度、简单性和运行时间之间取得了有利的平衡。
2025-03-23 23:21:04
1419
原创 centernet2阅读笔记:Probabilistic two-stage detection
paper:https://arxiv.org/pdf/2103.07461.pdfcode:https://github.com/xingyizhou/CenterNet2 centernet我觉得是最优雅的框架之一,v1版本可以看我的前文,我在作者的代码上做了一个prune的版本,v2来了,非常迫不及待的学习一下,前面的DETR我都写不下去了,先来研究一下这篇paper,code是基于detectron2的,吐槽一下,现在很多代码都是基于mmdetection或者detectron2,工业..
2025-03-18 22:41:42
1581
原创 单目3d detection算法记录
1、centernet object as points这篇文章的核心单目3d检测主要是利用中心点直接回归出3d模型的所有属性,head共享整个backbone,其中3d属性包括:2d目标中心点、2dw和h、2d offsets、3doffsets、3d dimmession、rot还有depth。其中对应的depth是根据kitti中的外参矩阵来进行计算得到的,同时推理的也是全局角度,如下所示:KITTI 数据集 参数—— tracking devkit中的rotation_y和alp..
2025-03-18 22:39:34
1061
原创 Channel-wise Knowledge Distillation for Dense Prediction论文阅读
paper:https://arxiv.org/pdf/2011.13256.pdfcode:https://github.com/open-mmlab/mmrazor这篇paper主要是商汤开源的mmrazor中提及在detection有效果,我之前记录的几篇sota文章虽然在各自的paper中在detection领域都有提及有增益,但实际上在我的测试中,可能由于模型容量或者其他原因,收益都几乎不可见,但是这篇文章是商汤开源的,我认为应该具有比较好的含金量,因此再分析和实验一波。摘要:k.
2025-03-18 22:35:16
2844
1
原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 论文阅读
1、为什么要这么做?预训练模型越来越大,比如GPT-3 175B训练独立变得越来越不可行2、方法:冻结预训练模型的权重,在Transformer架构的每一层中注入可训练的低秩分解矩阵3、效果:训练参数量减少10000x,GPU显存减少3x,且不像adapter引入额外的推理延迟
2025-03-16 21:57:28
1907
1
原创 InternVL2.5:Expanding Performance Boundaries of Open-SourceMultimodal Models 论文理解
1、继承InternVL 2.0核心模型架构的基础上,系统地探索了视觉编码器、语言模型、数据集大小以及测试时配置的性能趋势,应该还有一个(预)训练策略2、第一个在MMMU基准测试中超过70%的开源MLLM,通过链式思维(CoT)推理实现了涨点3.7%3、探索了一种data filter的数据方式,确保数据的高质量(MLLM去重,filter+人工)
2025-03-08 23:33:22
1576
原创 Mini-InternVL: A Flexible-Transfer PocketMultimodal Model with 5% Parameters and 90%Performance 论文理解
1、开发了10亿到40亿不等的MLLM系列,其性能达到InternVL2.0的90%,而参数量仅为5%2、为Mini-InternVL开发了一个统一的适配框架(检测、分类、问答、理解等任务),使模型能够在下游任务中实现迁移3、给出了一些不同任务训练的数据混合参数,有极大的参考意义
2025-03-03 23:53:36
1592
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人