
多模态
文章平均质量分 87
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。在国内外SCI、顶会等发表多篇论文。
展开
-
Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析
Kimi-VL开源,看技术报告训练操作蛮多的,特此记录下。原创 2025-04-12 14:14:05 · 354 阅读 · 0 评论 -
公式识别:利用分层且聚焦细节的网络提升复杂公式识别能力
我们的工作解决了数学表达式识别(MER)领域的两个根本性局限:一是缺乏能够涵盖复杂层次结构的数据集,二是现有模型无法解析复杂公式中的细粒度细节。首先,HDR数据集为MER研究树立了新的标杆。它拥有一亿个训练样本,并且有一个涵盖多个不同学科领域的多标签测试集。这促使模型去处理嵌套结构、多行公式以及功能等效的解释。通过纳入从简单字符到深度嵌套矩阵的不同层次,HDR弥合了理论研究与实际应用之间的差距。其次,HDNet重新定义了模型处理复杂公式的方式。原创 2025-03-30 15:42:23 · 330 阅读 · 0 评论 -
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节
记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。原创 2025-03-25 07:18:04 · 904 阅读 · 0 评论 -
DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路
刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。原创 2025-03-13 10:02:15 · 1755 阅读 · 0 评论 -
多模态大模型Ovis核心技术点、训练细节、训练数据
文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。原创 2025-03-12 13:49:49 · 811 阅读 · 0 评论 -
Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节
Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。原创 2025-03-09 16:19:36 · 1319 阅读 · 0 评论 -
allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析
先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview。原创 2025-03-02 17:29:07 · 985 阅读 · 0 评论 -
【文档智能&多模态】英伟达ECLAIR-端到端的文档布局提取,并集成阅读顺序方法
笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。原创 2025-02-10 22:20:27 · 792 阅读 · 0 评论 -
简单有效的企业多模态RAG问答框架-MuRAR
企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答,:如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。原创 2025-02-10 22:19:10 · 1054 阅读 · 0 评论 -
【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈
deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。原创 2025-02-06 14:27:39 · 927 阅读 · 0 评论 -
【文档智能】Qwen2.5-VL在版式分析和表格识别上的实际评测效果
qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务版式分析和表格识别,笔者直接测试下Qwen2.5-VL-72B的效果。原创 2025-02-06 14:26:51 · 900 阅读 · 0 评论 -
【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度
笔者在前面预训练了一个多模态大模型Reyes,详情见《本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。原创 2025-01-14 16:48:13 · 269 阅读 · 0 评论 -
【多模态&LLM】英伟达NVLM多模态大模型训练细节和数据集
其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。原创 2025-01-12 14:17:30 · 862 阅读 · 0 评论 -
【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))
它们在多式联运环境中的有效性仍然有限。关键的障碍在于(1)开发一个强大的奖励系统,能够区分偏好的响应和不太偏好的响应,以及(2)从人类那里获取高质量的偏好数据既昂贵又费力,特别是对于多帧的视频输入。长度泛化:从多帧到长视频:受到 LLM 中处理长序列的最新进展的启发,例如在旋转位置嵌入 (RoPE) 中实现线性缩放,我们在 LLaVA-NeXT 中应用了类似的缩放方法。这种线性缩放的调整不仅有利于处理更多帧,而且为 LLaVA-NeXT 在综合视频分析中的应用开辟了新的途径,为该领域的未来研究树立了先例。原创 2025-01-12 14:16:40 · 936 阅读 · 0 评论 -
【多模态&LLM】POINTS多模态大模型浅谈
NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。原创 2025-01-12 14:16:07 · 740 阅读 · 0 评论 -
【LLM&Agent】PPTAgent:PPT自动生成Agent框架
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片SSi1∑neifC其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于编辑的生成范式,该方法生成一系列修改现有幻灯片的动作。Ai1∑。原创 2025-01-12 14:15:31 · 1143 阅读 · 0 评论 -
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。原创 2025-01-12 14:14:25 · 1467 阅读 · 0 评论 -
【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节
笔者关注vary和GOT已久,抽空做了下技术思路记录,GOT是Vary的后续,GOT通过三个阶段的训练,模型能够逐步提升其在各种OCR任务上的性能,从基础的纯文本识别到处理更复杂的格式化和通用OCR任务。每个阶段的训练都注重不同的数据类型和任务,确保模型在多样化的应用场景中都能表现出色。笔者在折腾过程中,这个链路的一阶段的数据搞起来太伤身了,可以直接在开源权重上进行post-train,二/三阶段微调后发现效果也达不到落地的效果,数据质量和数量都需要进一步的提升。原创 2024-12-13 18:10:06 · 1251 阅读 · 0 评论 -
【多模态】文档截图嵌入统一多模态检索方法原理
本文单独来看看检索部分的多模态嵌入部分。现有的检索范式缺乏跨模态的统一编码过程,导致两个问题:预处理工作繁琐:需要专门的处理来应对各种文档类型和内容模态,而这些处理往往不完美。例如,HTML文件由于其多样的结构,复杂性较高,使得单一工具难以准确解析所有信息。同样,ppt和PDF通常需要OCR模型来提取文本并分别处理其他内容类型,如表格和图表。处理这些长尾问题较为复杂。破坏文档原始布局信息:解析过程可能导致文档布局信息丢失。文档的视觉呈现可以传达通过内容提取难以捕捉的关键信息。原创 2024-12-04 14:27:05 · 981 阅读 · 0 评论 -
【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝
在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题IQ,并且依赖于可访问的知识库。文章提出的mR2AG框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。mR2AG将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成答案,以及后处理多个候选答案。原创 2024-11-26 19:08:46 · 924 阅读 · 0 评论 -
【RAG&多模态】再看多模态RAG进行文档问答的方案
M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而,这些方法在实际应用中存在困难,例如问题通常需要跨不同页面或文档的信息,而MLMs无法处理长文档;并且,文档中重要的视觉元素(如图、表等)往往被文本提取工具忽略。原创 2024-11-26 19:06:46 · 687 阅读 · 0 评论 -
【多模态&RAG】多模态RAG ColPali实践
关于前面已经介绍了(供参考),这次来看看ColPali实践。原创 2024-11-02 14:02:55 · 638 阅读 · 0 评论 -
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。原创 2024-11-01 09:11:46 · 3292 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用
前期文章提到,多模态的RAG框架ColPali通过视觉语言模型(VLMs)高效地检索纯视觉特征的文档,实现视觉文档问答。本文再来看一个类似工作,VisRAG,一种基于视觉语言模型的检索增强生成(RAG)方法,用于解决多模态文档中的信息利用问题。原创 2024-11-01 09:10:49 · 1166 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索
前面文章提到,文档智能解析能够有效的增强RAG系统的准确性。可以看到基于PDF的RAG,需要先对pdf进行解析,生成文本chunk,然后再基于文本建索引。这种pipline的方式,每个解析模块都需要放置对应的解析模型,存在着错误传播的问题。因此,笔者看到ColPali时,这种端到端的方案挺有意思,本文来看一看这个思路。原创 2024-11-01 09:09:53 · 1145 阅读 · 0 评论 -
【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR
OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别解析的思路及微调方法。原创 2024-10-13 16:55:28 · 2152 阅读 · 0 评论 -
【多模态】一次多模态大模型表格识别解析探索小实践记录
训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是。作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法,国庆期间,笔者利用一个较长的时间段,训练了一个。模型,效果还不错,特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大,推理速度比较慢。原创 2024-10-12 19:43:46 · 1156 阅读 · 0 评论 -
【多模态】常见在多模态任务中的数据增强方法crop实现
最近多模态大模型层出不穷,笔者关注到了很多大模型中都采用了crop进行图像增强,如:llava、Intern-VL1.5等,以Intern-VL1.5中的瓷砖crop方法为例,看看在图像处理过程中如何通过动态匹配最佳的宽高比(aspect ratio)来保持自然的图像比例。动态宽高比匹配(Dynamic Aspect Ratio Matching)在处理图像时,为了确保图像的自然宽高比保持不变,需要动态地选择最合适的宽高比。这意味着根据图像的实际宽高比从预定义的宽高比集合中选择一个最匹配的比率。原创 2024-09-06 09:01:06 · 841 阅读 · 0 评论 -
【文档智能】LACE:帮你自动生成文档布局的方法浅尝
往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局。介绍之前,先概述下一些基础的概念。可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。原创 2024-07-09 20:28:50 · 979 阅读 · 0 评论 -
【数据集】最近开源的一些多模态图表理解数据集
现有数据集通常关注过于简化和同质化的图表,并且问题往往基于模板生成,这导致了对MLLMs图表理解能力的过度乐观评估。为了解决这个问题,作者提出了一个新的评估套件CharXiv,它包含了从arXiv论文中精选的2323个自然、具有挑战性和多样性的图表,并设计了两种类型的问题:描述性问题和推理问题,以全面评估MLLMs在图表理解方面的能力。数据集类型:图表结构提取、图表推理。原创 2024-07-03 19:39:08 · 895 阅读 · 0 评论 -
【文档智能】符合人类阅读顺序的文档模型-LayoutReader原理及权重开源
LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。在编码阶段,LayoutReader将源序列和目标序列打包成一个连续的输入序列,并设计了自注意力掩码来控制token之间的可见性。具体来说,LayoutReader允许源序列中的标记相互关注,同时阻止目标序列中的标记关注右侧上下文。在解码阶段,由于源序列和目标序列是重新排序的序列,预测候选可以被限制在源序列内。因此,模型被要求预测源序列中的索引。原创 2024-06-02 18:31:17 · 1767 阅读 · 0 评论 -
【文档智能】再谈基于Transformer架构的文档智能理解方法论和相关数据集
文档的智能解析与理解成为为知识管理的关键环节。特别是在处理扫描文档时,如何有效地理解和提取表单信息,成为了一个具有挑战性的问题。扫描文档的复杂性,包括其结构的多样性、非文本元素的融合以及手写与印刷内容的混合,都为自动化处理带来了难题。本文记录了基于Transformer架构的文档理解模型常见方法和相关数据集。文档理解本质上是一个序列标注任务,类似于命名实体识别(NER),通常被称为关键信息提取(KIE)。原创 2024-03-09 16:10:46 · 1685 阅读 · 1 评论 -
多模态大型语言模型综述
这篇论文《The ®Evolution of Multimodal Large Language Models: A Survey》提供了对多模态大型语言模型(MLLMs)领域的全面回顾。引言:介绍了MLLMs的重要性,它们通过整合视觉和文本模态,提供了基于对话的接口和遵循指令的能力。论文强调了在这一领域进行研究的重要性,并概述了研究的三个核心方面:模型架构、训练方法和任务设计。赋予LLMs多模态能力。原创 2024-02-21 15:15:22 · 1690 阅读 · 0 评论 -
【文档智能】多模态预训练模型及相关数据集汇总
大模型时代,在现实场景中或者企业私域数据中,大多数数据都以文档的形式存在,如何更好的解析获取文档数据显得尤为重要。文档智能也从以前的目标检测(版面分析)阶段转向多模态预训练阶段,本文将介绍目前一些前沿的多模态预训练模型及相关数据集。本文简单介绍了文档智能领域关于多模态预训练语言模型相关内容及相关数据集,相对于基于目标检测(版面分析)的pipline形式,多模态预训练模型能够一定程度的实现端到端的提取文本内容。但实际应用还需要根据特定的场景进行进一步的研究。原创 2023-10-15 17:54:24 · 1101 阅读 · 0 评论 -
【文档智能】:GeoLayoutLM:一种用于视觉信息提取(VIE)的预训练模型
文章介绍了一种用于视觉信息提取(VIE)的预训练模型:GeoLayoutLM。GeoLayoutLM通过显式建模几何关系和特殊的预训练任务来提高文本和布局的特征表示。该模型能够提高文档信息抽取的性能。该文章提出GeoLayoutLM,一个用于VIE的几何预训练框架。定义了三种不同层次的几何关系:GeoPair、GeoMPair和GeoTriplet。相应地,引入了三个专门设计的预训练目标来明确地建模几何关系。相较于LayoutLMv3,在关系抽取上取得了非常好的性能,为文档智能的布局理解提供了新的思路。原创 2023-09-29 10:59:02 · 981 阅读 · 0 评论