自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(198)
  • 收藏
  • 关注

原创 【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)

本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。

2025-01-12 14:14:25 1538

原创 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路

现阶段,尽管大模型在生成式问答上取得了很大的成功,但由于大部分的数据都是私有数据,大模型的训练及微调成本非常高,RAG的方式逐渐成为落地应用的一种重要的选择方式。然而,如何准确的对文档进行划分chunks,成为一种挑战,在现实中,大部分的专业文档都是以 PDF 格式存储,低精度的 PDF 解析会显著影响专业知识问答的效果。因此,本文将介绍针对pdf,介绍一些pdf结构化技术链路供参考。

2024-06-10 16:33:06 5623

原创 正向最大匹配算法(中文分词)

一、最大匹配法  最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。最大匹配算法有三种:  1、正向最大匹配  2、逆向最大匹配  3、双向匹配  三种算法原理都一样,以正向为例,是从前向后扫描的过程。如下:二、使用北大训练集实现正向最大匹配1、数据集(从中选取北大的训练集)2、代码实现# -*- coding: utf-8 -*-"""@au

2020-08-30 17:49:42 14742 1

原创 什么时候用GraphRAG?RAG VS GraphRAG综合分析

最近的研究报告称,在许多实际任务中,GraphRAG的表现往往不如普通的RAG。因此产生一个问题:GraphRAG真的有效吗?在哪些场景下,GraphRAG有收益?为了解决这个问题,提出GraphRAG-Bench,这是一个评测GraphRAG的基准,目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。

2025-06-09 18:52:34 694

原创 GraphRAG优化新思路-开源的ROGRAG框架

目前的如微软开源的GraphRAG的工作流程都较为复杂,难以孤立地评估各个组件的贡献,传统的检索方法在处理复杂推理任务时可能不够有效,特别是在需要理解实体间关系或多跳知识的情况下。先说结论,看完后感觉这个框架性能上不会比GraphRAG高,仅在单一数据集上进行了评测,不过优化思路可以借鉴下,比如:双层次检索提高图检索准确性等。供参考。

2025-06-09 18:51:49 281

原创 改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG

给定一个问题Q,基于图的RAG的关键思想是从图中检索相关信息(例如,节点、子图或文本信息),将其与Q一起作为提示,然后输入到LLM中。如下图:因此,现有工作的工作流主要包括两个阶段:(1):从给定语料库D构建知识图谱G(V,E),其中每个顶点代表一个实体,每条边表示两个实体之间的关系,并基于知识图谱构建索引。(2):使用索引从知识图谱中检索相关信息(例如节点、子图或文本信息),并将检索到的信息提供给大型语言模型以提高响应的准确性。

2025-06-04 15:48:57 843

原创 基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve

Walk&Retrieve基于知识图谱,利用基于图遍历和知识表述来进行零样本RAG的语料库生成。解决RAG系统的幻觉问题。该框架思路比较简单,核心点在于,下面来看看,供参考。

2025-05-29 14:38:53 724

原创 使用多Agent进行海报生成的技术方案及评估套件-P2P、paper2poster

最近字节、滑铁卢大学相关团队同时放出了他们使用Agent进行海报生成的技术方案,和,传统方案如类似ppt生成等思路,基本上采用固定的模版,提取相关的关键元素进行模版填充,因此,海报生成的质量完全依赖于规则模版的丰富程度。下面来看一下这两个团队使用Agent进行海报生成的技术思路,覆盖多种技术链路,如:文档智能解析、LLM、布局生成、Agent等。比如有趣,下面来看看这两个技术方案,供参考。学术海报在科学交流中起着至关重要的作用,需要在有限的页面上压缩长篇幅的多模态文档。

2025-05-28 16:25:35 1165

原创 字节开源的多模态端到端文档解析模型-Dolphin

前期介绍了一些pipline的文档解析实现路线和端到端的多模态解析方案,整理在:《下面来看一下字节最新开源的多模态文档解析方案,笔者实际测下来性能还有待提升(鉴于合成数据,泛化性还较差,存在幻觉),不过思路可以借鉴下,供参考。

2025-05-26 17:19:48 760

原创 Qwen3模型架构、训练方法梳理

qwen3炼丹真是全是技巧,下面来看看,仅供参考。

2025-05-14 13:25:05 991

原创 通用RAG:通过路由模块对多源异构知识库检索生成问答思路

如何在多个语料库(多源异构知识库,如:文本、图片、视频)中检索和整合来自不同模态和粒度的知识?UniversalRAG:一种新的RAG框架,用于从多个模态和粒度的语料库中检索和整合知识。下面来看看思路,供参考。

2025-05-12 19:51:44 889

原创 多模态文档检索开源方案-三大竞赛获奖方案技术链路

前期也提到,在实际场景中,用户通常需要检索多模态文档,包括文本、图像、表格和图表。这需要一个更复杂的检索系统,能够处理多模态信息,并根据用户查询提供相关文档或段落。检索多模态文档将有助于 AI 聊天机器人、搜索引擎和其他应用程序向用户提供更准确、更相关的信息。提到的诸多方案。下面来看看www会议开设的挑战赛的三个获奖方案。概述:多模态文档检索任务专注于对多模态文档或网页中的段落进行建模,利用文本和多模态信息进行嵌入建模。最终目标是根据用户的文本或多模态查询检索相关的多模态文档或段落。

2025-05-08 21:26:06 525

原创 【文档智能】开源的阅读顺序(Layoutreader)模型使用指南

阅读顺序检测旨在捕获人类读者能够自然理解的单词序列。现有的OCR引擎通常按照从上到下、从左到右的方式排列识别到的文本行,但这并不适用于某些文档类型,如多栏模板、表格等。LayoutReader模型使用seq2seq模型捕获文本和布局信息,用于阅读顺序预测,在实验中表现出色,并显著提高了开源和商业OCR引擎在文本行排序方面的表现。详细代码已上传:https://github.com/yujunhuics/LayoutReader/blob/main/vis.py。一年前,笔者基于开源了一个阅读顺序模型(《

2025-05-08 21:23:50 550

原创 Encoder-free无编码器多模态大模型EVEv2模型架构、训练方法浅尝

基于视觉编码器的MLLM的基本构成:MLLM通常由预训练的模态编码器、预训练的LLM和一个连接它们的模态接口三个模块组成。模态编码器(如:CLIP-ViT视觉编码器、Whisper音频编码器等)将原始信息(如图像或音频)压缩成更紧凑的表示。预训练的LLM则负责理解和推理处理过的信号。模态接口用于对齐不同的模态,实现异构模态表征空间的语义对齐。下面这张图概括的比较好。上述工作都是基于视觉编码器的多模态大模型,下面来看一个Encoder-free VLMs(无视觉编码器的多模态大模型)的思路,供参考。

2025-05-02 15:36:05 596

原创 多模态大模型轻量化探索-视觉大模型SAM(Segment Anything Model)

往期,笔者基于LLava的数据对齐训练,搞了一个多模态大模型,并且看了些多模态大模型,相关开源的多模态大模型如:KimiVL、Internvl、QwenVL等,其视觉编码器的尺寸都比较大,如:MoonViT-SO-400M、InternViT-6B-448px-V2_5 等都非常大,对于特定的垂直场景(或者是端侧落地都不大友好),也许并不需要这么大视觉编码器。如:表格场景(),当时笔者用了一个8B参数的模型及百万表格数据进行训练达到了不错的效果。近期,因此思考一些模型轻量化的方案,

2025-05-02 15:30:23 1130

原创 多模态大模型轻量化探索-开源SmolVLM模型架构、数据策略及其衍生物PDF解析模型SmolDocling

缩小视觉编码器的尺寸,能够有效的降低多模态大模型的参数量。再来看一个整体的工作,,进一步降低参数量,甚至最小达256M参数量,推理时显存占用<1GB。下面来看看,仅供参考。

2025-05-02 15:29:10 1843

原创 多模态RAG演进-MRAG1.0->MRAG2.0->MRAG3.0

多模态生成:增强生成模块以处理多模态数据,通过集成MLLMs实现用户查询和检索结果的合成。多模态检索:增强检索模块以支持多模态用户输入,保留原始多模态数据并实现跨模态检索。允许基于文本的查询直接检索相关的多模态数据,结合基于字幕的召回和跨模态搜索能力。真正的端到端多模态:在知识库构建和系统输入中强调多模态能力的同时,MRAG3.0引入了多模态输出能力,完成了端到端的多模态框架。与MRAG1.0不同,MRAG2.0不仅支持多模态输入的查询,还在知识库中保留了原始的多模态数据。

2025-05-02 15:27:54 877

原创 用RAG的思路构建文档级别知识图谱构建框架-RAKG

GraphRAG经过一些场景验证KG+LLM的范式能够有效的增强RAG系统性能,对于如何联合文档建立多模态的GraphRAG,笔者之前也有过相关分享,如:《下面我们来看一个用RAG的思路构建文档级别知识图谱构建框架思路,这个思路要解决的问题是。传统的知识图谱构建方法面临的问题。整体思路可以参考下。

2025-04-18 13:02:08 776

原创 再看开源多模态RAG的视觉文档(OCR-Free)检索增强生成方案-VDocRAG

OpenDocVQA任务的目标是给定一个文档图像集合和一个问题,通过找到相关的文档图像来输出答案。视觉文档检索(Visual Document Retrieval)输入:一个查询问题QQQ和一个文档图像集合II。输出:从集合中检索出与问题相关的kkk个文档图像II,其中k≪Nk \ll Nk≪N(即kkk远小于文档集合的大小)。目标:通过检索相关的文档图像来帮助生成答案。文档视觉问答(DocumentVQA)输入:查询问题QQQ和检索到的文档图像II。

2025-04-18 13:01:00 1258

原创 十大PDF解析工具在不同文档类别中的比较研究

其实,全文看下来,这个评测的粒度还是比较粗的,但是其中的对于基于规则的pdf parser工具结论还是值得看一看的。在具体的业务场景中,选择合适的解析工具需要考虑文档类型和具体任务的需求。参考文献:A Comparative Study of PDF Parsing Tools Across Diverse。

2025-04-12 14:16:39 1004

原创 RAG分块优化之语义分块方法CrossFormer模型技术思路

CrossFormer 将文本语义分割任务定义为句子级别的序列标注问题。给定一个文档DD,包含nnn个句子,每个句子sis_isi​被分配一个二分类标签yi∈01yi​∈01。标签yi1y_i = 1yi​1表示由语义连贯性统一的一个段落的终端边界,而yi0y_i = 0yi​0表示在同一主题段落内的连续性。目标是训练一个函数fD→01nfD→01n,能够根据上下文预测每个句子的标签yiy_iyi​。

2025-04-12 14:15:42 1285 1

原创 Kimi-VL开源多模态大模型结构、训练方法、训练数据浅析

Kimi-VL开源,看技术报告训练操作蛮多的,特此记录下。

2025-04-12 14:14:05 1027

原创 公式识别:利用分层且聚焦细节的网络提升复杂公式识别能力

我们的工作解决了数学表达式识别(MER)领域的两个根本性局限:一是缺乏能够涵盖复杂层次结构的数据集,二是现有模型无法解析复杂公式中的细粒度细节。首先,HDR数据集为MER研究树立了新的标杆。它拥有一亿个训练样本,并且有一个涵盖多个不同学科领域的多标签测试集。这促使模型去处理嵌套结构、多行公式以及功能等效的解释。通过纳入从简单字符到深度嵌套矩阵的不同层次,HDR弥合了理论研究与实际应用之间的差距。其次,HDNet重新定义了模型处理复杂公式的方式。

2025-03-30 15:42:23 381

原创 Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

2025-03-25 07:18:04 1205

原创 DeepSeek关键技术再总结

本文详细介绍了 DeepSeek 模型中的一些创新技术,包括对 Transformer 架构的改进(如 MLA、MOE)、Multi-Token Prediction 提高训练效率、算法、框架和硬件的协同设计、Group Relative Policy Optimization (GRPO) 强化学习算法,以及结合监督微调和强化学习的迭代训练方法。这些技术不仅提高了模型的性能,还显著降低了训练成本。

2025-03-18 11:05:43 411

原创 DeepSeek-R1思路训练多模态大模型-Vision-R1开源及实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力?结论:不能,。:从未经专门推理优化的原始 MLLM(例如 Qwen-2.5VL-7B-Instruct)开始,直接应用 RL 训练。使用与 Vision-R1 相同的奖励函数,即硬格式结果奖励函数(HFRRF):如果输出格式正确且答案正确,奖励为 1,否则为 0。训练目标是激励模型生成多模态 CoT,解决数学推理任务。

2025-03-13 10:02:15 1953

原创 多模态大模型Ovis核心技术点、训练细节、训练数据

文章提出:传统的 MLLMs 中,文本嵌入是从 LLM 的嵌入查找表中索引得到的,而视觉嵌入是由视觉编码器(如:ViT)直接生成的连续向量。。与传统的MLLM不同,Ovis 通过在视觉编码器的过程中引入一个额外的来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。

2025-03-12 13:49:49 892

原创 PathRAG:通过图剪枝的方法优化Graph-based RAG的性能方法浅析

PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG):•:通过从索引图中检索关键的关系路径来减少冗余信息。PathRAG使用基于流的剪枝算法来识别和提取最相关的路径,从而减少噪声并提高生成答案的质量。

2025-03-11 17:15:00 1236

原创 RAG常见13种分块策略大总结(一览表)

分块策略在RAG中至关重要,目的是提高效率、相关性和上下文保持。分块能减少计算开销,增加检索相关信息的可能性,同时保持信息完整性。但也存在风险,如上下文丢失、冗余和不一致性。选择策略需考虑文档类型(结构化 vs 非结构化)、查询复杂性、资源可用性和期望结果(速度 vs 准确性 vs 上下文)。以下是13种独特分块策略的详细描述,按策略名称、描述、优点、缺点和实施建议。

2025-03-09 16:20:16 678

原创 Phi-4-multimodal:图、文、音频统一的多模态大模型架构、训练方法、数据细节

Phi-4-Multimodal 是一种参数高效的多模态模型,通过 LoRA 适配器和模式特定路由器实现文本、视觉和语音/音频的无缝集成。训练过程包括多阶段优化,确保在不同模式和任务上的性能,数据来源多样,覆盖高质量网络和合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。

2025-03-09 16:19:36 1488

原创 DeepSeek的多头潜在注意力(MLA)和及其11种KV-Cache技巧演进大总结

可以将 KV 缓存想象成一个智能记事本,我们会在第一次看到每个 token 时记下有关它的重要信息。键(k):可以将其视为一种寻址机制——它有助于确定此标记与未来标记的相关性值(v):可以将其视为当此标记被发现相关时实际使用的信息kxWKk = xW_KkxWK​(其中xxx是标记,WKW_KWK​是一个学习到的变换)vxWVv = xW_VvxWV​(其中WVW_VWV​是另一个学习到的变换)

2025-03-02 17:30:22 542

原创 allenai开源多模态的文档智能解析大模型(OLMOCR)方法、效果浅析

先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。。在线demo:https://olmocr.allenai.org/开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview。

2025-03-02 17:29:07 1100

原创 DeepSeek-R1训练时采用的GRPO算法数学原理及算法过程浅析

先来简单看下PPO和GRPO的区别:PPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。

2025-03-02 17:27:55 1264

原创 “RAG界的deepseek”开源-企业复杂私域知识理解与推理框架PIKE-RAG

PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下PIKE-RAG框架及其实现过程,供参考。

2025-02-14 20:42:54 1248

原创 HtmlRAG:RAG系统中,HTML比纯文本效果更好

HtmlRAG方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。

2025-02-13 21:06:21 1212

原创 【文档智能&多模态】英伟达ECLAIR-端到端的文档布局提取,并集成阅读顺序方法

笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。

2025-02-10 22:20:27 837

原创 简单有效的企业多模态RAG问答框架-MuRAR

企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答,:如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。

2025-02-10 22:19:10 1090

原创 DeepSeek中的多头潜在注意力(MLA)浅尝

MLA是MHA的变体,因此先来看看MHA。

2025-02-09 11:06:29 1698

原创 【LLM】“几十块”从零复现deepseek“顿悟时刻”不可能实验验证

实践出真知,本文仅作记录、参考,简单的实验复现验证几十块复现一个R1-zero模型的不可能性(如果是纯粹的基于qwen2.5-7B以下模型经过RL得到一个R1-zero模型),代码就不整理了,今天看到一个新的实现仓库供参考:https://github.com/GAIR-NLP/LIMO。

2025-02-07 20:16:19 485

原创 【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈

deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。

2025-02-06 14:27:39 1041

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除