lovep1-优快云博客

原创声音理解大模型MiDashengLM: Efficient Audio Understanding with General Audio Captions论文理解和翻译

1、如何得到：仅依赖于公开的预训练和监督微调（SFT）数据集进行训练得到的MiDashengLM 2、关键核心：集成了一个专门设计用于有效处理各种听觉信息的开源音频编码器—Dasheng 3、处理策略：将语音、声音和音乐信息融合成一个文本表示形式，从而实现了复杂音频场景的整体文本表征 4、速度/时延：比同类模型快4倍的首个token预测时间（TTFT）和高达20倍的吞吐量

2025-08-13 01:02:38 749

原创多模态大模型和数据质量汇总

汇总了对多模态大模型和CV大模型的一些理解，并记录了一流科技公司对数据驱动做看法和做法，后面持续更新这个表格

2025-08-08 01:33:41 936

原创多模态大模型综述：InstructBLIP详解（第三篇）

1、做了什么：LLM可以做指令微调，VLM之前不可以，开发了VLM的Instruct turning的框架 2、怎么做：基于BLIP2模型，引入了一个instruction-aware Query Transformer模块，让文本特征指导图像特征的提取 3、取得了什么结果：InstructBLIP 在13 个数据集上取得了SOTA的结果，显著优于 BLIP-2 和Flamingo ，且开源所有模型

2025-08-07 00:33:13 1002

原创多模态大模型综述：BLIP-2详解（第二篇）

1、为什么提出: VLM全参训练参数量太大,直接训练有问题 2、怎么做: 增加一个Qformer模块大幅度减少参数量(54x) 3、怎么训练: 继承BLIP的预训练+图文生成式预训练 4、什么结果: 训练速度超快且效果SOTA

2025-08-03 23:57:22 806

原创多模态大模型综述：VIT/BLIP详解（第一篇）

1、详细介绍了多模态encoder的，本文只包括VIT和BLIP 2、VIT通过将输入图片切成patch+位置向量，将分类任务转换为序列预测任务 3、BLIP同时包括图文对比学习、图文分类、图文生成学习3个任务进行联合训练，并开发了一个利用带噪音数据的pipeline

2025-08-01 01:06:15 766

原创数据合成-Self-Instruct：Aligning Language Modelswith Self-Generated Instructions 低成本指令集合成

1、为什么要做？模型严重依赖人工编写的指令数据，指令数据在数量、多样性和创造性方面存在局限 2、怎么做？通过利用语言模型自身的生成结果进行自举，提升预训练语言模型的指令遵循能力 3、具体流程：从语言模型中生成指令、输入和输出样本，过滤无效或相似的样本后，再用这些样本对原始模型进行微调 4、取得了什么结果？应用于基础版 GPT-3，实现了 33% 的绝对提升，与 InstructGPT-001 的性能相当

2025-07-30 00:37:54 742

原创 CLAP文本-音频基础模型： LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION

1、现在的做法有什么问题？主流范式是 “一个类别标签对应多个录音”，需要提前标注+预测预先定义的类别，只能做闭集理解，失去灵活性 2、我们怎么做？通过两个编码器和对比学习机制建立语言与音频的关联，将音频和文本描述映射到一个联合的多模态空间进行对齐 3、做得怎么样？12.8 万对音频 - 文本训练，在8 个领域的 16 项下游任务中评估，即使训练数据小于CV模型，Zero-Shot上达到了SoTA。finetune后在5项评估任务中也是SOTA能做什么？

2025-07-27 21:58:20 770

原创多模态大模型数据合成-Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis论文翻译和理解

11、为什么做数据合成？MLLMS的性能归功于大规模的训练数据，但是数据不开源且标注成本很高 2、怎么做？仅向多模态大语言模型输入图像作为提示，同时控制指令质量，就能够生成高质量多模态指令集 3、实验成果：收集了超过 50 万条数据，并通过消融实验论证方法有效（在垂直领域有效、在通用领域也有效、控制指令的质量有效、回收caption也有效）

2025-07-23 01:06:47 658

原创详解大模型的位置编码-positional encoding

1、为什么要有位置编码：需要知道绝对位置信息、相对位置信息和不同位置之间的距离 2、位置编码需要有什么特点：用来表示绝对位置、相对位置和距离、表示从没看过的句子长度 3、有什么类型的位置编码：绝对位置编码、相对位置编码ALiBi和旋转位置编码RoPE 4、会遇到什么问题？长度外推问题 5、怎么解决？直接外推、线性内插、进制转换、位置线性内插和NTK-Aware scaled RoPE

2025-07-13 22:19:35 973

原创 CV大模型预训练scaling law：On Data Scaling in Masked Image Modeling论文翻译和理解

1、自监督学习的重要目标是模型预训练能够从几乎无限的数据中受益。 2、CV领域与LLM同样存在scaling law曲线，并不是无法从大规模数据中受益 3、MIM的大型模型需要更多的数据和更长的训练,如果训练次数不够，扩大数据量意义不大 4、预训练中的验证损失是衡量模型在多个任务上微调表现的一个良好指标<验证损失和下游任务性能存在负相关>

2025-06-30 00:58:39 2976

原创 CV大模型预训练MAE：Masked Autoencoders Are Scalable Vision Learners论文理解和翻译

1、提出一种用于CV的可扩展自监督学习方案Masked AutoEncoders(MAE) 2、这种可扩展的方法允许学习具有高容量的模型，这些模型具有良好的泛化能力 3、ViT-Huge模型在仅使用ImageNet-1K数据的方法中实现了最高的准确率（87.8%），在下游任务中的迁移性能超过了监督预训练

2025-06-29 15:48:54 3266

原创 CV大模型预训练-DINOv2: Learning Robust Visual Featureswithout Supervision 论文翻译和解读

1、提供了一个有效的数据收集/清洗的pipeline，借助这个pipeline也获得了高质量的数据集LVD-142M 2、提出了一种新的判别式-自监督预训练方法，本质上是在DINO+iBOT等多个自监督方法的组合 3、给出了SOTA自监督方法的在各类下游任务benchmark，且给出了蒸馏过后的小模型的涨点指标 4、开源了一系列高性能的预训练模型

2025-06-26 01:13:53 3125

原创大模型应用：如何使用Langchain+Qwen部署一套Rag检索系统

1、从0-1使用qwen chat model+ langchain的链式架构搭建一套rag系统 2、详细介绍了Langchain的工具链的调用流程 3、简单介绍了可能会出现什么问题

2025-06-22 23:03:00 1466

原创 RAG综述（下篇）：Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译

上一篇讲了RAG的工作流、RAG的分类和发展趋势，这一片主要讲RAG检索的细节:1、在检索器里面如何实现高效、高准确度的检索2、在生成器里面如何实现将检索到的信息转换成流程的文本输出3、如何评估这是一个好的RAG和对应的下游任务评估指标

2025-06-20 00:34:46 1446

原创 RAG综述（上篇）：Retrieval-Augmented Generation for Large Language Models: A Survey论文理解和翻译

1、为什么要做RAG：LLMs面临着幻觉、过时知识和不透明、不可追溯的推理过程等挑战 2、RAG如何提升性能：通过整合持续更新的外部数据库的知识和特定领域信息，增强了模型的准确性和可信度 3、RAG的范式和发展：Naive RAG、Advanced RAG和Modular RAG，这三种范式之间的关系是继承和发展的关系。 4、不同RAG的局限性和解决手段：三个RAG范式引入了什么模块具体解决了什么问题

2025-06-18 00:14:36 1618

原创数据质量-如何构建高质量的大模型数据集

1、重要性：数据质量 > 数据数量 2、数据质量提升原则：提升数据多样性和分布和提升数据质量和高质量数据数量 3、具体如何提升：针对传统NN任务、LLM任务和MLLMs任务，方法和侧重点不一样 4、如何使用这些方法：将这些方法做成算子写入pipeline框架进行大规模使用

2025-06-15 22:34:09 1909

原创大模型是SFT好还是Retrieval好？Fine-Tuning or Retrieval?Comparing Knowledge Injection in LLMs

1、LLMs 在其预训练权重中包含了大量的事实信息，这种知识本质上是有限的2、SFT和 RAG是改进 LLMs的重要方法，RAG比无监督微调要好 3、LLMs 在无监督微调中难以学习新的事实信息（很难直接对他进行知识注入，严格意义上来说是引入对特定领域的偏好来“刷新”其记忆）4、训练集的repeat是有意义的，改写prompt来重复能够增强模型性能5、VLM和LLM一样也不需要sft？我持怀疑态度

2025-06-09 00:46:55 1582

原创分词算法总结：不同分词算法的优点和缺点

分词算法总结：1、总结不同分词算法的优点和缺点2、word-based/Character based/Subword-based Tokenizers

2025-06-08 22:33:12 1784

原创分词算法BBPE详解和Qwen的应用

1、BPE有什么问题：依旧会遇到OOV问题，并且中文、日文这些大词汇表模型容易出现训练中未出现过的字符2、Byte-level BPE怎么解决：与BPE一样是高频字节进行合并，但BBPE是以UTF-8编码UTF-8编码字节序列而非字符序列3、Byte-level BPE利用utf-8编码，利用动态规划解码，最大程度的还原字符的语义和上下文信息（这是我理解为什么LLM能够通过NTP进行理解的最主要原因）4、Qwen是使用BBPE算法，增加了中文的能力，词汇表包括151,643 tokens

2025-06-02 15:30:35 2099

原创分词算法BPE详解和CLIP的应用

1、BPE通过替换相邻最频繁的字符和持续迭代来实现压缩2、CLIP对text进行标准化和预分词后，对每一个单词进行BPE编码和查表，完成token_id的转换3、LLama和InternVL根据paper和代码推断也是使用BPE分词算法

2025-05-25 19:30:55 2065

原创理想AI Talk第二季-重点信息总结

1、理想为什么要做自己的基模：座舱家庭等特殊VLM场景，deepseek/openai没有解决2、理想的基模参数量：服务端-300B，VLencoder-32B/3.6B，日常工作使用-300B，VLA-4B3、为什么自动驾驶可以达成：规则已知，类比机器人的自由度小，能够做的比人好4、VLA如何训练：基座模型pretrain、VLA后训练，强化学习训练，最后是agent5、讲了很多公司的理念，我觉得挺好的，但是这部分就不在本文体现了

2025-05-19 00:08:35 1067

原创大模型的scaling laws：Scaling Laws for Neural Language Models

1、Loss与模型size、数据集大小以及用于训练的计算量呈幂律关系其他架构细节，如网络宽度或深度，在较宽范围内影响极小2、简单的公式可以描述过拟合与模型/数据集大小的依赖关系，以及训练速度与模型大小的依赖关系3、作用：固定计算预算的最优分配。更大的模型显著更样本高效4、记住标红的小节结论就行了，重要的是结论和学习如何做消融实验的思路

2025-04-28 22:42:12 1875

原创 InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models论文理解

1、InternVL3采用了一种原生的多模态预训练范式，在预训练阶段就从多样化的多模态数据和纯文本语料库中共同获取多模态和语言能力2、InternVL3引入了可变视觉位置编码（V2PE）以支持扩展的多模态上下文，采用了先进的post training技术（SFT+MPO）3、InternVL3在多种多模态任务中表现卓越，InternVL3-78B在MMMU基准测试中获得了72.2分，与闭源商业模型相比也具备高竞争力

2025-04-16 00:19:26 1157

原创 Qwen2.5-VL Technical Report 论文翻译和理解

1、Qwen2.5-VL是QwenVL的最新模型，在视觉识别、精准目标定位、稳健文档解析以及长视频理解等方面实现了重大突破2、引入了动态分辨率处理和绝对时间编码，使其能够处理不同尺寸的图像以及长达数小时的视频，并实现秒级事件定位3、数据集上建立了一个自动化filter的流程，使得模型能够获取高质量数据4、在现实世界场景（如操作计算机和移动设备）中具备推理、工具使用和任务执行能力。可在不同领域实现强大的zero-shot泛化能力

2025-04-13 21:58:15 1325

原创 ChatRex: Taming Multimodal LLM for Joint Perception and Understanding 论文理解和翻译

1、MLLM在感知方面存在不足，比如Qwen2-VL在coco上recall只有43.9%2、2提出了ChatRex，旨在从模型设计和数据开发两个角度来填补这一感知能力的缺口3、ChatRex通过proposal边界框输入到LLM中将其转化为retrieval任务4、构建了一个data-engine，提出了Rexverse-2M数据集，支持了感知和理解的联合训练。

2025-04-13 00:10:17 1114

原创 InternVideo2.5：Empowering Video MLLMs with Long and Rich Context Modeling

1、InternVideo2.5通过LRC建模来提升MLLM的性能。2、层次化token压缩和任务偏好优化（mask+时空 head）整合到一个框架中，并通过自适应层次化token压缩来开发紧凑的时空表3、MVBench/Perception Test/EgoSchema/MLVU数据benchmark上提升明显

2025-04-09 00:01:00 1906

原创数据质量：From Quantity to Quality: Boosting LLM Performance with Self-GuidedData Selection for Instruct

在大型语言模型（LLMs）的领域中，指令数据的质量与数量之间的平衡是一个关键点。1、提出了一种自我引导的方法，使LLMs能够自主识别并从开源数据集中选择最佳样本，从而有效减少人工策划和对LLMs指令微调的潜在成本。2、指令遵循难度（IFD）指标成为识别模型预期响应与其内在生成能力之间差异的关键指标。3、通过应用IFD，在Alpaca和WizardLM等数据集上模型仅使用原始数据5%-10%的樱桃数据就可以达到全量数据微调的效果

2025-04-07 23:15:27 988 1

原创数据蒸馏：Towards Lossless Dataset Distillation via Difficulty-Aligned Trajectory Matching

1、数据集蒸馏只有在合成样本的总数极小时才有效。由于如此少的样本所能包含的信息有限，似乎要实现真正无损的比较难2、本研究提出了一种合成数据集规模增长仍保持有效的蒸馏方法算法，并阐明了现有方法为何无法生成更大规模、高质量的合成数据集。3、轨迹匹配是最SOTA的方法，即优化合成数据以诱导与真实数据相似的长期训练动态。但区分早期轨迹和后期轨迹，4、将生成模式的难度与合成数据集的大小相匹配。通过这样做，我们首次成功地将基于轨迹匹配的方法扩展到更大的合成数据集，实现了无损数据集蒸馏

2025-04-06 23:34:40 1494

原创数据蒸馏：Dataset Distillation by Matching Training Trajectories 论文翻译和理解

1、数据集蒸馏的任务是合成一个较小的数据集，使得在该合成数据集上训练的模型能够达到在完整数据集上训练的模型相同的测试准确率，号称优于coreset的选择方法2、本文中，对于给定的网络，我们在蒸馏数据上对其进行几次迭代训练，预先计算并存储在真实数据集上训练的专家网络的训练轨迹，并根据合成训练参数与在真实数据上训练的参数之间的距离来优化蒸馏数据。3、有一个问题哈，这种蒸馏方法强依赖GT，如果新增数据优化模型，没有GT可能还是只能使用coreset的方法来做

2025-04-05 23:03:01 1058

原创大模型高质量rag构建：A Cheat Sheet and Some Recipes For Building Advanced RAG

1、给出了典型的基础rag并定义了2条rag是成功的要求2、基于2条rag的成功要求给出了构建高级rag的相关技术，包括块大小优化、结构化外部知识、信息压缩、结果重排等3、对上述所有的方法，给出了llama的demo代码和相关的其他参考链接

2025-03-31 23:35:51 1013

原创数据蒸馏：Dataset Distillation with Neural Characteristic Function: A Minmax Perspective论文理解

1、基于分布的数据蒸馏效果比较好，但是距离度量往往无法准确的捕捉分布差异，导致不可靠性2、本文将数据集蒸馏表述为minmax优化问题，引入了神经特征函数差异（NCFD），实现了合成样本的真实性和多样性的平衡（就是生成了更接近真实数据的压缩后数据）3、在低分辨率和高分辨率数据集上达到SOTA，GPU内存使用量减少了３００ｘ，速度提升２０ｘ，仅使用２.３GB的显存2080TI在CIFAR100上无损压缩

2025-03-31 00:17:08 1906

原创大模型思维链COT：Chain-of-Thought Prompting Elicits Reasoningin Large Language Models

1、探索了COT（chain-of-thought prompting）通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力2、2在三个大型语言模型上的实验表明，思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现3、解释了一下为什么COT有效，见3.3节：老实说我觉得全是猜测4、给出了一些局限性：比如模型参数超过1000亿才work，cot并不是真正的模仿人类在推理等等；

2025-03-25 23:29:03 1331 2

原创大模型RLHF训练-PPO算法详解：Proximal Policy Optimization Algorithms

1、提出了一种新的策略梯度方法家族，用于强化学习，这些方法交替进行与环境交互采样数据2、提出了一个新的目标函数，使得能够进行多个小批量更新的多轮训练3、这些新方法为近端策略优化（Proximal Policy Optimization，PPO），它们具有一些信任域策略优化的优点4、证明PPO优于其他在线策略梯度方法，并且总体上在样本复杂度、简单性和运行时间之间取得了有利的平衡。

2025-03-23 23:21:04 1419

原创 centernet2阅读笔记：Probabilistic two-stage detection

paper：https://arxiv.org/pdf/2103.07461.pdfcode：https://github.com/xingyizhou/CenterNet2 centernet我觉得是最优雅的框架之一，v1版本可以看我的前文，我在作者的代码上做了一个prune的版本，v2来了，非常迫不及待的学习一下，前面的DETR我都写不下去了，先来研究一下这篇paper，code是基于detectron2的，吐槽一下，现在很多代码都是基于mmdetection或者detectron2，工业..

2025-03-18 22:41:42 1581

空空如也

空空如也