自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(179)
  • 收藏
  • 关注

原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。

2025-01-12 14:14:25 1460

原创 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。

2024-06-10 16:33:06 5198

原创 正向最大匹配算法(中文分词)

一、最大匹配法  最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种:  1、正向最大匹配  2、逆向最大匹配  3、双向匹配  三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 14651 1

原创 公式识别:利用分层且聚焦细节的网络提升复杂公式识别能力

我们的工作解决了数学表达式识别(MER)领域的两个根本性局限:一是缺乏能够涵盖复杂层次结构的数据集,二是现有模型无法解析复杂公式中的细粒度细节。首先,HDR数据集为MER研究树立了新的标杆。它拥有一亿个训练样本,并且有一个涵盖多个不同学科领域的多标签测试集。这促使模型去处理嵌套结构、多行公式以及功能等效的解释。通过纳入从简单字符到深度嵌套矩阵的不同层次,HDR弥合了理论研究与实际应用之间的差距。其次,HDNet重新定义了模型处理复杂公式的方式。

2025-03-30 15:42:23 326

原创 Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

2025-03-25 07:18:04 873

原创 DeepSeek关键技术再总结

本文详细介绍了 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。

2025-03-18 11:05:43 359

原创 DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。

2025-03-13 10:02:15 1720

原创 多模态大模型Ovis核心技术点、训练细节、训练数据

文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。

2025-03-12 13:49:49 806

原创 PathRAG:通过图剪枝的方法优化Graph-based RAG的性能方法浅析

PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG):•:通过从索引图中检索关键的关系路径来减少冗余信息。PathRAG使用基于流的剪枝算法来识别和提取最相关的路径,从而减少噪声并提高生成答案的质量。

2025-03-11 17:15:00 1083

原创 RAG常见13种分块策略大总结(一览表)

分块策略在RAG中至关重要,目的是提高效率、相关性和上下文保持。分块能减少计算开销,增加检索相关信息的可能性,同时保持信息完整性。但也存在风险,如上下文丢失、冗余和不一致性。选择策略需考虑文档类型(结构化 vs 非结构化)、查询复杂性、资源可用性和期望结果(速度 vs 准确性 vs 上下文)。以下是13种独特分块策略的详细描述,按策略名称、描述、优点、缺点和实施建议。

2025-03-09 16:20:16 523

原创 Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

2025-03-09 16:19:36 1302

原创 DeepSeek的多头潜在注意力(MLA)和及其11种KV-Cache技巧演进大总结

可以将 KV 缓存想象成一个智能记事本,我们会在第一次看到每个 token 时记下有关它的重要信息。键(k):可以将其视为一种寻址机制——它有助于确定此标记与未来标记的相关性值(v):可以将其视为当此标记被发现相关时实际使用的信息kxWKk = xW_KkxWK​(其中xxx是标记,WKW_KWK​是一个学习到的变换)vxWVv = xW_VvxWV​(其中WVW_VWV​是另一个学习到的变换)

2025-03-02 17:30:22 425

原创 allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析

先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview。

2025-03-02 17:29:07 975

原创 DeepSeek-R1训练时采用的GRPO算法数学原理及算法过程浅析

先来简单看下PPO和GRPO的区别:PPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。

2025-03-02 17:27:55 945

原创 “RAG界的deepseek”开源-企业复杂私域知识理解与推理框架PIKE-RAG

PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下PIKE-RAG框架及其实现过程,供参考。

2025-02-14 20:42:54 1108

原创 HtmlRAG:RAG系统中,HTML比纯文本效果更好

HtmlRAG方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。

2025-02-13 21:06:21 1167

原创 【文档智能&多模态】英伟达ECLAIR-端到端的文档布局提取,并集成阅读顺序方法

笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。

2025-02-10 22:20:27 790

原创 简单有效的企业多模态RAG问答框架-MuRAR

企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答,:如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。

2025-02-10 22:19:10 1053

原创 DeepSeek中的多头潜在注意力(MLA)浅尝

MLA是MHA的变体,因此先来看看MHA。

2025-02-09 11:06:29 1627

原创 【LLM】“几十块”从零复现deepseek“顿悟时刻”不可能实验验证

实践出真知,本文仅作记录、参考,简单的实验复现验证几十块复现一个R1-zero模型的不可能性(如果是纯粹的基于qwen2.5-7B以下模型经过RL得到一个R1-zero模型),代码就不整理了,今天看到一个新的实现仓库供参考:https://github.com/GAIR-NLP/LIMO。

2025-02-07 20:16:19 403

原创 【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈

deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。

2025-02-06 14:27:39 914

原创 【文档智能】Qwen2.5-VL在版式分析和表格识别上的实际评测效果

qwen开年开源了Qwen2.5-VL系列权重模型,笔者观察到相较于传统的多模态系列,增加了文档理解功能。笔者以文档智能中两个比较重要的任务版式分析和表格识别,笔者直接测试下Qwen2.5-VL-72B的效果。

2025-02-06 14:26:51 866

原创 【RAG】RAG范式演进及Agentic-RAG总结综述

RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。。检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。相关技术:如BM25关键词匹配、密集向量搜索等。增强器(Augmenter):对检索结果进行筛选、排序和整合,提取最相关的片段。相关技术:上下文重排序、多跳检索。

2025-02-06 14:25:37 1014

原创 【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度

笔者在前面预训练了一个多模态大模型Reyes,详情见《本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。

2025-01-14 16:48:13 264

原创 【多模态&LLM】英伟达NVLM多模态大模型训练细节和数据集

其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM-1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。

2025-01-12 14:17:30 855

原创 【多模态&LLM】LLaVA系列算法架构演进:LLaVA(1.0->1.5->Next(1.6)->NeXT(Video))

它们在多式联运环境中的有效性仍然有限。关键的障碍在于(1)开发一个强大的奖励系统,能够区分偏好的响应和不太偏好的响应,以及(2)从人类那里获取高质量的偏好数据既昂贵又费力,特别是对于多帧的视频输入。长度泛化:从多帧到长视频:受到 LLM 中处理长序列的最新进展的启发,例如在旋转位置嵌入 (RoPE) 中实现线性缩放,我们在 LLaVA-NeXT 中应用了类似的缩放方法。这种线性缩放的调整不仅有利于处理更多帧,而且为 LLaVA-NeXT 在综合视频分析中的应用开辟了新的途径,为该领域的未来研究树立了先例。

2025-01-12 14:16:40 922

原创 【多模态&LLM】POINTS多模态大模型浅谈

NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。

2025-01-12 14:16:07 734

原创 【LLM&Agent】PPTAgent:PPT自动生成Agent框架

来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片SSi1∑n​ei​fC其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei​由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于编辑的生成范式,该方法生成一系列修改现有幻灯片的动作。Ai1∑。

2025-01-12 14:15:31 1134

原创 【RAG】RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝

每个语句与检索到的证据进行比较,并标记为**“支持”或“不支持”**(如上图所示,RAFS为每个语句输出一个事实性得分以及“支持”或“不支持”的标签。),基于与信息的对齐情况。这一阶段基于MCTS(蒙特卡洛树搜索)的自生成器,引入了两个新的检索增强动作,动态获取相关外部信息。通过检索增强生成器和RAFS两个阶段,RARE系统地将基于检索的证据整合到推理过程中,优化了推理的连贯性和事实准确性。检索到的文档提供了额外的上下文,丰富了推理轨迹,支持生成器形成更全面、更具上下文相关性的最终答案。

2024-12-13 18:11:24 854

原创 【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

笔者关注vary和GOT已久,抽空做了下技术思路记录,GOT是Vary的后续,GOT通过三个阶段的训练,模型能够逐步提升其在各种OCR任务上的性能,从基础的纯文本识别到处理更复杂的格式化和通用OCR任务。每个阶段的训练都注重不同的数据类型和任务,确保模型在多样化的应用场景中都能表现出色。笔者在折腾过程中,这个链路的一阶段的数据搞起来太伤身了,可以直接在开源权重上进行post-train,二/三阶段微调后发现效果也达不到落地的效果,数据质量和数量都需要进一步的提升。

2024-12-13 18:10:06 1237

原创 【text2sql】低资源场景下Text2SQL方法

SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、 和 是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而 后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据 和 中的内容预测 后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续推理阶段偏离思路,从而减少推理时间。

2024-12-04 14:28:37 667

原创 【多模态】文档截图嵌入统一多模态检索方法原理

本文单独来看看检索部分的多模态嵌入部分。现有的检索范式缺乏跨模态的统一编码过程,导致两个问题:预处理工作繁琐:需要专门的处理来应对各种文档类型和内容模态,而这些处理往往不完美。例如,HTML文件由于其多样的结构,复杂性较高,使得单一工具难以准确解析所有信息。同样,ppt和PDF通常需要OCR模型来提取文本并分别处理其他内容类型,如表格和图表。处理这些长尾问题较为复杂。破坏文档原始布局信息:解析过程可能导致文档布局信息丢失。文档的视觉呈现可以传达通过内容提取难以捕捉的关键信息。

2024-12-04 14:27:05 974

原创 【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件

text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。:在零样本场景中,不提供示例;而在少样本场景中,提供少量输入输出示例以提示大模型。形式上,给定一个由θ参数化的LLM,问题qi​和k个示例(k≥0),目标是最大化从大型语言模型生成正确SQLsi​si​max​PLLMθ​​si​∣σqi​M∣。

2024-11-27 19:16:39 1348

原创 【RAG&多模态】mR^2AG:基于知识的多模态检索-反思增强生成方法浅尝

在基于知识的视觉问答(Knowledge-based VQA)任务中,输入通常是一对图像和问题IQ,并且依赖于可访问的知识库。文章提出的mR2AG框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。mR2AG将生成过程分为三个步骤:执行检索反思(Retrieval-Reflection)以确定是否需要检索,执行相关性反思(Relevance-Reflection)以识别证据段落并生成答案,以及后处理多个候选答案。

2024-11-26 19:08:46 923

原创 【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG

AssisTRAG通过集成一个来提升LLMs处理复杂推理任务的能力。和。

2024-11-26 19:07:23 1083

原创 【RAG&多模态】再看多模态RAG进行文档问答的方案

M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而,这些方法在实际应用中存在困难,例如问题通常需要跨不同页面或文档的信息,而MLMs无法处理长文档;并且,文档中重要的视觉元素(如图、表等)往往被文本提取工具忽略。

2024-11-26 19:06:46 682

原创 【多模态&RAG】多模态RAG ColPali实践

关于前面已经介绍了(供参考),这次来看看ColPali实践。

2024-11-02 14:02:55 623

原创 【RAG】自动化RAG框架-“AutoML风”卷到了RAG?

AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的。文章评估了各种RAG技术。分别为的策略。每种技术旨在优化外部知识源与生成过程的整合,以提高LLM输出的准确性。使用教程可以看一下。

2024-11-01 09:13:50 569

原创 【RAG】R²AG:将检索信息融入RAG,提升问答系统准确性

文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。

2024-11-01 09:12:40 804

原创 【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述

文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。

2024-11-01 09:11:46 3249

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除