
大语言模型
文章平均质量分 85
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。在国内外SCI、顶会等发表多篇论文。
展开
-
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析
Kimi-VL开源,看技术报告训练操作蛮多的,特此记录下。原创 2025-04-12 14:14:05 · 354 阅读 · 0 评论 -
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节
记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。原创 2025-03-25 07:18:04 · 904 阅读 · 0 评论 -
DeepSeek关键技术再总结
本文详细介绍了 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。原创 2025-03-18 11:05:43 · 360 阅读 · 0 评论 -
DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。原创 2025-03-13 10:02:15 · 1755 阅读 · 0 评论 -
多模态大模型Ovis核心技术点、训练细节、训练数据
文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。原创 2025-03-12 13:49:49 · 811 阅读 · 0 评论 -
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。原创 2025-03-09 16:19:36 · 1319 阅读 · 0 评论 -
DeepSeek的多头潜在注意力(MLA)和及其11种KV-Cache技巧演进大总结
可以将 KV 缓存想象成一个智能记事本,我们会在第一次看到每个 token 时记下有关它的重要信息。键(k):可以将其视为一种寻址机制——它有助于确定此标记与未来标记的相关性值(v):可以将其视为当此标记被发现相关时实际使用的信息kxWKk = xW_KkxWK(其中xxx是标记,WKW_KWK是一个学习到的变换)vxWVv = xW_VvxWV(其中WVW_VWV是另一个学习到的变换)原创 2025-03-02 17:30:22 · 435 阅读 · 0 评论 -
allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析
先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview。原创 2025-03-02 17:29:07 · 985 阅读 · 0 评论 -
DeepSeek-R1训练时采用的GRPO算法数学原理及算法过程浅析
先来简单看下PPO和GRPO的区别:PPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。原创 2025-03-02 17:27:55 · 976 阅读 · 0 评论 -
DeepSeek中的多头潜在注意力(MLA)浅尝
MLA是MHA的变体,因此先来看看MHA。原创 2025-02-09 11:06:29 · 1644 阅读 · 0 评论 -
【LLM】“几十块”从零复现deepseek“顿悟时刻”不可能实验验证
实践出真知,本文仅作记录、参考,简单的实验复现验证几十块复现一个R1-zero模型的不可能性(如果是纯粹的基于qwen2.5-7B以下模型经过RL得到一个R1-zero模型),代码就不整理了,今天看到一个新的实现仓库供参考:https://github.com/GAIR-NLP/LIMO。原创 2025-02-07 20:16:19 · 411 阅读 · 0 评论 -
【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈
deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。原创 2025-02-06 14:27:39 · 927 阅读 · 0 评论 -
【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度
笔者在前面预训练了一个多模态大模型Reyes,详情见《本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。原创 2025-01-14 16:48:13 · 269 阅读 · 0 评论 -
【多模态&LLM】英伟达NVLM多模态大模型训练细节和数据集
其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。原创 2025-01-12 14:17:30 · 862 阅读 · 0 评论 -
【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))
它们在多式联运环境中的有效性仍然有限。关键的障碍在于(1)开发一个强大的奖励系统,能够区分偏好的响应和不太偏好的响应,以及(2)从人类那里获取高质量的偏好数据既昂贵又费力,特别是对于多帧的视频输入。长度泛化:从多帧到长视频:受到 LLM 中处理长序列的最新进展的启发,例如在旋转位置嵌入 (RoPE) 中实现线性缩放,我们在 LLaVA-NeXT 中应用了类似的缩放方法。这种线性缩放的调整不仅有利于处理更多帧,而且为 LLaVA-NeXT 在综合视频分析中的应用开辟了新的途径,为该领域的未来研究树立了先例。原创 2025-01-12 14:16:40 · 936 阅读 · 0 评论 -
【多模态&LLM】POINTS多模态大模型浅谈
NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。原创 2025-01-12 14:16:07 · 740 阅读 · 0 评论 -
【LLM&Agent】PPTAgent:PPT自动生成Agent框架
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片SSi1∑neifC其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于编辑的生成范式,该方法生成一系列修改现有幻灯片的动作。Ai1∑。原创 2025-01-12 14:15:31 · 1143 阅读 · 0 评论 -
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。原创 2025-01-12 14:14:25 · 1467 阅读 · 0 评论 -
【RAG】RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝
每个语句与检索到的证据进行比较,并标记为**“支持”或“不支持”**(如上图所示,RAFS为每个语句输出一个事实性得分以及“支持”或“不支持”的标签。),基于与信息的对齐情况。这一阶段基于MCTS(蒙特卡洛树搜索)的自生成器,引入了两个新的检索增强动作,动态获取相关外部信息。通过检索增强生成器和RAFS两个阶段,RARE系统地将基于检索的证据整合到推理过程中,优化了推理的连贯性和事实准确性。检索到的文档提供了额外的上下文,丰富了推理轨迹,支持生成器形成更全面、更具上下文相关性的最终答案。原创 2024-12-13 18:11:24 · 863 阅读 · 0 评论 -
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
笔者关注vary和GOT已久,抽空做了下技术思路记录,GOT是Vary的后续,GOT通过三个阶段的训练,模型能够逐步提升其在各种OCR任务上的性能,从基础的纯文本识别到处理更复杂的格式化和通用OCR任务。每个阶段的训练都注重不同的数据类型和任务,确保模型在多样化的应用场景中都能表现出色。笔者在折腾过程中,这个链路的一阶段的数据搞起来太伤身了,可以直接在开源权重上进行post-train,二/三阶段微调后发现效果也达不到落地的效果,数据质量和数量都需要进一步的提升。原创 2024-12-13 18:10:06 · 1251 阅读 · 0 评论 -
【text2sql】低资源场景下Text2SQL方法
SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、 和 是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而 后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据 和 中的内容预测 后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续推理阶段偏离思路,从而减少推理时间。原创 2024-12-04 14:28:37 · 680 阅读 · 0 评论 -
【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件
text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。:在零样本场景中,不提供示例;而在少样本场景中,提供少量输入输出示例以提示大模型。形式上,给定一个由θ参数化的LLM,问题qi和k个示例(k≥0),目标是最大化从大型语言模型生成正确SQLsisimaxPLLMθsi∣σqiM∣。原创 2024-11-27 19:16:39 · 1372 阅读 · 0 评论 -
【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝
在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题IQ,并且依赖于可访问的知识库。文章提出的mR2AG框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。mR2AG将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成答案,以及后处理多个候选答案。原创 2024-11-26 19:08:46 · 924 阅读 · 0 评论 -
【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG
AssisTRAG通过集成一个来提升LLMs处理复杂推理任务的能力。和。原创 2024-11-26 19:07:23 · 1084 阅读 · 0 评论 -
【RAG&多模态】再看多模态RAG进行文档问答的方案
M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而,这些方法在实际应用中存在困难,例如问题通常需要跨不同页面或文档的信息,而MLMs无法处理长文档;并且,文档中重要的视觉元素(如图、表等)往往被文本提取工具忽略。原创 2024-11-26 19:06:46 · 687 阅读 · 0 评论 -
【多模态&RAG】多模态RAG ColPali实践
关于前面已经介绍了(供参考),这次来看看ColPali实践。原创 2024-11-02 14:02:55 · 638 阅读 · 0 评论 -
【RAG】自动化RAG框架-“AutoML风”卷到了RAG?
AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的。文章评估了各种RAG技术。分别为的策略。每种技术旨在优化外部知识源与生成过程的整合,以提高LLM输出的准确性。使用教程可以看一下。原创 2024-11-01 09:13:50 · 573 阅读 · 0 评论 -
【RAG】R²AG:将检索信息融入RAG,提升问答系统准确性
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。原创 2024-11-01 09:12:40 · 807 阅读 · 0 评论 -
【RAG】aiops第一名方案-EasyRAG:自动网络运营的高效检索增强生成框架
来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简单快速的部署;如何在推理过程中显著减少延迟。比赛地址:competition.aiops-challenge.com。原创 2024-10-18 20:40:08 · 976 阅读 · 0 评论 -
【LLM】一文详解MHA、GQA、MQA原理
本文回顾一下MHA、GQA、MQA,详细解读下MHA、GQA、MQA这三种常见注意力机制的原理。原创 2024-10-18 20:38:13 · 1513 阅读 · 1 评论 -
【LLM & KG】浅尝基于LLM的三阶段自动知识图谱构建方法
提示LLMs为提取的Schema组件(如实体类型和关系类型)提供自然语言定义。然后将这些定义作为用于规范化的辅助信息传递到下一阶段。原创 2024-10-13 16:57:23 · 1309 阅读 · 0 评论 -
【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
前面很多期介绍了密集文档场景的RAG方法,今天来看看大量表格场景的RAG怎么做的。现有结合大模型的方法通常需要将整个表格作为输入,这会导致一些挑战,比如位置偏差、上下文长度限制等,尤其是在处理大型表格时。为了解决这些问题,文章提出了TableRAG框架,该框架利用和,以在。这种方法能够更高效地编码数据和精确检索,显著减少提示长度并减轻信息丢失。语言模型读取整个表格。这是最直接的方法,但往往不可行,因为大型表格会超出模型的处理能力。阴影区域表示提供给语言模型的数据,包括所有行和列。原创 2024-10-12 19:44:26 · 3273 阅读 · 0 评论 -
【LLM】参数高效微调(Parameter-Efficient Fine-Tuning)-Prefix Tuning、Adapter Tuning、LoRA
回顾一下三种参数高效微调方法-Prefix Tuning、Adapter Tuning、LoRA。原创 2024-10-07 19:31:59 · 1121 阅读 · 0 评论 -
【LLM & text2sql】浅看大模型用于text2sql的综述
之前笔者分享了text2sql & LLM & KG的有机结合实现KBQA的问答,【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践》、【开源分享】KBQA核心技术及结合大模型SPARQL查询生成问答实践我们再来看看大模型在text2sql上的一篇综述,大模型的发展,出现了一系列新方法,主要集中在提示工程(prompt engineering)和微调(fine-tuning)上。原创 2024-09-13 08:31:35 · 1395 阅读 · 0 评论 -
【RAG】RAG再进化?基于长期记忆的检索增强生成新范式-MemoRAG
RAG现在工作很多,进化的也很快,再来看看一个新的RAG工作-MemoRAG。文章提出,RAG在减少大模型对于垂类知识的问答幻觉上取得了不错的效果,也成为私域知识问答的一种范式。然而,传统RAG系统主要适用于明确信息需求的问答任务,但在处理涉及模糊信息需求或非结构化知识的复杂任务时表现不佳。因为,现实世界中的许多问题信息需求是模糊的,外部知识是非结构化的,例如理解书籍中主要角色之间的相互关系。因此,研究难点如何有效处理模糊的信息需求如何从非结构化知识中提取有用信息。原创 2024-09-13 08:28:15 · 1153 阅读 · 0 评论 -
【RAG】LongRAG:利用长上下文LLMs增强检索增强生成
现有的RAG框架通常使用100词的短段落作为检索单元,这种设计使得检索器需要在大量语料库中搜索,增加了工作负担,并且容易引入难负样本,影响性能。LongRAG框架为了解决这一问题,该框架使用长检索单元(最多4K词),显著减少了语料库的大小(从22M减少到600K),从而减轻了检索器的负担,并提高了检索性能。LongRAG框架通过引入长检索器和长阅读器,减轻了检索器的负担,提高了检索质量和全文问答性能。该框架在不进行任何训练的情况下,达到了与最先进的全训练RAG模型相当的性能。原创 2024-09-06 09:02:50 · 1088 阅读 · 0 评论 -
【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践
本文介绍了一个融合RAG(Retrieval-Augmented Generation)思路的KBQA(Knowledge-Based Question Answering)系统的核心算法及实现步骤。KBQA系统的目标是通过自然语言处理技术,从知识图谱中提取和生成精确的答案。mention识别、实体链接及排序、属性选择及排序、文本拼接以及最终的Text2SQL生成。通过这些步骤,系统能够准确识别用户提出的问题中的关键实体和属性,并生成相应的查询语句,从而从知识图谱或数据库中检索所需的信息。原创 2024-08-19 18:28:49 · 1431 阅读 · 0 评论 -
【RAG & KG】GraphRAG开源:查询聚焦摘要的图RAG方法
传统的 RAG 方法在处理针对整个文本语料库的全局性问题时存在不足,例如查询:“数据中的前 5 个主题是什么?对于此类问题,是因为这类问题本质上是查询聚焦的摘要(Query-Focused Summarization, QFS)任务,而不是传统的显式检索任务。Graph RAG 通过使用 LLM 构建基于图的文本索引,从源文档构建知识图谱。通过构建知识图谱,能够将复杂的、大规模文本数据集转化为易于理解和操作的知识结构,以便更好地理解实体(如人物、地点、机构等)之间的相互关系。使用 LLM。原创 2024-07-09 20:31:05 · 1813 阅读 · 2 评论 -
【LLM】PISSA:一种高效的微调方法
介绍PISSA前,先简单过一下LLMs微调经常采用的LoRA(Low-Rank Adaptation)微调的方法,LoRA 假设权重更新的过程中有一个较低的本征秩,对于预训练的权重参数矩阵W0∈Rd×kW0∈Rd×k,(ddd为上一层输出维度,kkk为下一层输入维度),使用低秩分解来表示其更新:在训练过程中,W0W_0W0冻结不更新,AAABBB包含可训练参数。则 LoRA 的前向传递函数为:初始化时,常将低秩矩阵AAA高斯初始化,B。原创 2024-06-22 15:25:44 · 1310 阅读 · 0 评论 -
【RAG】RAG性能提升之路-RAPTOR:一种构建递归文档树的增强检索方法
RAPTOR模型通过其递归抽象处理方法,有效地解决了现有方法在长篇文档检索中的局限。通过构建树状索引结构,RAPTOR不仅提升了对长篇文档的理解,还增强了检索的准确性和效率,为处理知识密集型任务提供了新的可能。原创 2024-06-14 08:49:17 · 2131 阅读 · 0 评论