
自然语言处理
文章平均质量分 84
余俊晖
余俊晖,NLP炼丹师,目前专注自然语言处理领域研究。曾获得国内外自然语言处理算法竞赛TOP奖项近二十项。在国内外SCI、顶会等发表多篇论文。
展开
-
RAG分块优化之语义分块方法CrossFormer模型技术思路
CrossFormer 将文本语义分割任务定义为句子级别的序列标注问题。给定一个文档DD,包含nnn个句子,每个句子sis_isi被分配一个二分类标签yi∈01yi∈01。标签yi1y_i = 1yi1表示由语义连贯性统一的一个段落的终端边界,而yi0y_i = 0yi0表示在同一主题段落内的连续性。目标是训练一个函数fD→01nfD→01n,能够根据上下文预测每个句子的标签yiy_iyi。原创 2025-04-12 14:15:42 · 540 阅读 · 0 评论 -
DeepSeek的多头潜在注意力(MLA)和及其11种KV-Cache技巧演进大总结
可以将 KV 缓存想象成一个智能记事本,我们会在第一次看到每个 token 时记下有关它的重要信息。键(k):可以将其视为一种寻址机制——它有助于确定此标记与未来标记的相关性值(v):可以将其视为当此标记被发现相关时实际使用的信息kxWKk = xW_KkxWK(其中xxx是标记,WKW_KWK是一个学习到的变换)vxWVv = xW_VvxWV(其中WVW_VWV是另一个学习到的变换)原创 2025-03-02 17:30:22 · 435 阅读 · 0 评论 -
DeepSeek-R1训练时采用的GRPO算法数学原理及算法过程浅析
先来简单看下PPO和GRPO的区别:PPO:通过奖励和一个“评判者”模型(critic 模型)评估每个行为的“好坏”(价值),然后小步调整策略,确保改进稳定。GRPO:通过让模型自己生成一组结果(比如回答或行为),比较它们的相对质量(优势),然后优化策略。它的特点是不需要额外的“评判者”模型(critic 模型),直接用组内比较来改进。个人理解记录,供参考。原创 2025-03-02 17:27:55 · 976 阅读 · 0 评论 -
“RAG界的deepseek”开源-企业复杂私域知识理解与推理框架PIKE-RAG
PIKE-RAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下PIKE-RAG框架及其实现过程,供参考。原创 2025-02-14 20:42:54 · 1118 阅读 · 0 评论 -
HtmlRAG:RAG系统中,HTML比纯文本效果更好
HtmlRAG方法通过使用 HTML 而不是纯文本来增强 RAG 系统中的知识表示能力。通过 HTML 清洗和两步块树修剪方法,在保持关键信息的同时缩短了 HTML 文档的长度。这种方法优于现有基于纯文本的RAG的性能。原创 2025-02-13 21:06:21 · 1173 阅读 · 0 评论 -
【文档智能&多模态】英伟达ECLAIR-端到端的文档布局提取,并集成阅读顺序方法
笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。原创 2025-02-10 22:20:27 · 792 阅读 · 0 评论 -
简单有效的企业多模态RAG问答框架-MuRAR
企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答,:如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架-MuRAR。原创 2025-02-10 22:19:10 · 1054 阅读 · 0 评论 -
DeepSeek中的多头潜在注意力(MLA)浅尝
MLA是MHA的变体,因此先来看看MHA。原创 2025-02-09 11:06:29 · 1644 阅读 · 0 评论 -
【LLM】“几十块”从零复现deepseek“顿悟时刻”不可能实验验证
实践出真知,本文仅作记录、参考,简单的实验复现验证几十块复现一个R1-zero模型的不可能性(如果是纯粹的基于qwen2.5-7B以下模型经过RL得到一个R1-zero模型),代码就不整理了,今天看到一个新的实现仓库供参考:https://github.com/GAIR-NLP/LIMO。原创 2025-02-07 20:16:19 · 411 阅读 · 0 评论 -
【多模态&LLM】deepseek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈
deepseek开源的多模态大模型-Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus 通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。原创 2025-02-06 14:27:39 · 927 阅读 · 0 评论 -
【RAG】RAG范式演进及Agentic-RAG总结综述
RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。。检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。相关技术:如BM25关键词匹配、密集向量搜索等。增强器(Augmenter):对检索结果进行筛选、排序和整合,提取最相关的片段。相关技术:上下文重排序、多跳检索。原创 2025-02-06 14:25:37 · 1032 阅读 · 0 评论 -
【多模态&LLM】多模态大模型Reyes增加batch推理方式,提升推理速度
笔者在前面预训练了一个多模态大模型Reyes,详情见《本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。原创 2025-01-14 16:48:13 · 269 阅读 · 0 评论 -
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。原创 2025-01-12 14:14:25 · 1467 阅读 · 0 评论 -
【text2sql】低资源场景下Text2SQL方法
SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、 和 是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而 后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据 和 中的内容预测 后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续推理阶段偏离思路,从而减少推理时间。原创 2024-12-04 14:28:37 · 680 阅读 · 0 评论 -
【text2sql】DB-GPT-Hub:text2sql的微调框架及基准测试套件
text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行 sql 生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本/少样本提示和微调。:在零样本场景中,不提供示例;而在少样本场景中,提供少量输入输出示例以提示大模型。形式上,给定一个由θ参数化的LLM,问题qi和k个示例(k≥0),目标是最大化从大型语言模型生成正确SQLsisimaxPLLMθsi∣σqiM∣。原创 2024-11-27 19:16:39 · 1372 阅读 · 0 评论 -
【RAG】浅看引入智能信息助理提升大模型处理复杂推理任务的潜力-AssisTRAG
AssisTRAG通过集成一个来提升LLMs处理复杂推理任务的能力。和。原创 2024-11-26 19:07:23 · 1084 阅读 · 0 评论 -
【RAG】自动化RAG框架-“AutoML风”卷到了RAG?
AutoML(自动机器学习)是指通过自动化过程,简化机器学习模型的开发、训练和优化,使非专业用户也能有效地构建高性能模型。今天分享的。文章评估了各种RAG技术。分别为的策略。每种技术旨在优化外部知识源与生成过程的整合,以提高LLM输出的准确性。使用教程可以看一下。原创 2024-11-01 09:13:50 · 573 阅读 · 0 评论 -
【RAG】R²AG:将检索信息融入RAG,提升问答系统准确性
文章指出,传统RAG通过向量检索排序召回与Query相关的片段,通过prompt生成回复,LLMs与检索器之间存在语义鸿沟(LLMs难以有效利用检索器提供的信息)。下面来看看这篇文章引入检索信息增强RAG性能的trick。原创 2024-11-01 09:12:40 · 807 阅读 · 0 评论 -
【文档智能】文档解析揭秘:文档结构化信息提取技术、数据集综述
文档智能解析目前落地的方案还是基于pipline的形式,端到端的方案目前受限资源速度等因素落地还有些距离。原创 2024-11-01 09:11:46 · 3292 阅读 · 0 评论 -
【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用
前期文章提到,多模态的RAG框架ColPali通过视觉语言模型(VLMs)高效地检索纯视觉特征的文档,实现视觉文档问答。本文再来看一个类似工作,VisRAG,一种基于视觉语言模型的检索增强生成(RAG)方法,用于解决多模态文档中的信息利用问题。原创 2024-11-01 09:10:49 · 1167 阅读 · 0 评论 -
【RAG】aiops第一名方案-EasyRAG:自动网络运营的高效检索增强生成框架
来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简单快速的部署;如何在推理过程中显著减少延迟。比赛地址:competition.aiops-challenge.com。原创 2024-10-18 20:40:08 · 976 阅读 · 0 评论 -
【LLM】一文详解MHA、GQA、MQA原理
本文回顾一下MHA、GQA、MQA,详细解读下MHA、GQA、MQA这三种常见注意力机制的原理。原创 2024-10-18 20:38:13 · 1513 阅读 · 1 评论 -
【LLM & KG】浅尝基于LLM的三阶段自动知识图谱构建方法
提示LLMs为提取的Schema组件(如实体类型和关系类型)提供自然语言定义。然后将这些定义作为用于规范化的辅助信息传递到下一阶段。原创 2024-10-13 16:57:23 · 1309 阅读 · 0 评论 -
【文档智能】文本文字识别、公式识别、表格文字识别核心算法及思路及实践-DBNet、CRNN、TrOCR
OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图-OCR。本文简要介绍OCR常见落地的算法模型-DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别解析的思路及微调方法。原创 2024-10-13 16:55:28 · 2152 阅读 · 0 评论 -
【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
前面很多期介绍了密集文档场景的RAG方法,今天来看看大量表格场景的RAG怎么做的。现有结合大模型的方法通常需要将整个表格作为输入,这会导致一些挑战,比如位置偏差、上下文长度限制等,尤其是在处理大型表格时。为了解决这些问题,文章提出了TableRAG框架,该框架利用和,以在。这种方法能够更高效地编码数据和精确检索,显著减少提示长度并减轻信息丢失。语言模型读取整个表格。这是最直接的方法,但往往不可行,因为大型表格会超出模型的处理能力。阴影区域表示提供给语言模型的数据,包括所有行和列。原创 2024-10-12 19:44:26 · 3273 阅读 · 0 评论 -
【多模态】一次多模态大模型表格识别解析探索小实践记录
训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是。作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法,国庆期间,笔者利用一个较长的时间段,训练了一个。模型,效果还不错,特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大,推理速度比较慢。原创 2024-10-12 19:43:46 · 1156 阅读 · 0 评论 -
【RAG】OPEN-RAG:利用开源大型语言模型增强检索增强推理
检索增强生成(RAG)已被证明可以提高大型语言模型(LLMs)的事实准确性,但现有方法在有效使用检索到的证据方面往往存在有限的推理能力,特别是当使用开源LLMs时。引入了一个新颖的框架OPEN-RAG,增强基于开源大型语言模型的检索增强推理的能力,特别是处理复杂推理任务时的有限推理能力。原创 2024-10-11 09:35:03 · 868 阅读 · 0 评论 -
【RAG】表格场景RAG怎么做?TableRAG:一种增强大规模表格理解框架
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。原创 2024-10-11 09:33:58 · 1954 阅读 · 0 评论 -
【RAG】HiQA:一种用于多文档问答的层次化上下文增强RAG
文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法-HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。本文介绍了HiQA,这是一个专门为了解决现有RAG在多文档问答(MDQA)环境中的局限性而设计的新型框架,特别是在处理无法区分的多文档时。原创 2024-10-07 19:33:01 · 886 阅读 · 0 评论 -
【LLM】参数高效微调(Parameter-Efficient Fine-Tuning)-Prefix Tuning、Adapter Tuning、LoRA
回顾一下三种参数高效微调方法-Prefix Tuning、Adapter Tuning、LoRA。原创 2024-10-07 19:31:59 · 1121 阅读 · 0 评论 -
【RAG】WeKnow-RAG:融合Web搜索与知识图谱的自适应检索增强生成方法
往期文章介绍了《【RAG】混合RAG系统,提升复杂推理任务表现》,本文再来看看KDD CUP2024的CRAG的第三名方案,该方案提出WeKnow-RAG方法,结合了知识图谱和基于Web的RAG技术,通过多阶段检索、自评估机制以及智能平衡框架,提高了信息检索的精度和生成答案的可靠性。WeKnow-RAG方法通过结合知识图谱和Web搜索,设计了一个端到端的检索增强生成系统。该方法通过多阶段检索和自评估机制提高了信息检索的效率和准确性,并通过领域分类和查询生成优化了知识图谱的使用。原创 2024-09-26 08:58:44 · 1297 阅读 · 0 评论 -
【NLP】基于“检测器-纠错器”中文文本纠错框架
许多方法将中文拼写纠正(检测和纠正给定中文句子中的错误字符)视为序列标注任务,并在句子对上进行微调。一些方法使用错误检测器作为初步任务,然后将检测结果用于辅助后续的错误纠正过程。然而,现有方法在使用检测器时存在一些问题,如检测器性能不足或检测信息未能有效应用于纠正过程。难点:中文拼写纠正的难点在于中文是由象形文字组成的,字符的形状和发音与其意义密切相关。此外,中文句子通常由连续的字符组成,没有分隔符,这使得CSC方法必须基于上下文信息来辨别错误,而不是直接从独立的词语中查找拼写错误。原创 2024-09-25 22:01:50 · 1527 阅读 · 0 评论 -
【LLM & text2sql】浅看大模型用于text2sql的综述
之前笔者分享了text2sql & LLM & KG的有机结合实现KBQA的问答,【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践》、【开源分享】KBQA核心技术及结合大模型SPARQL查询生成问答实践我们再来看看大模型在text2sql上的一篇综述,大模型的发展,出现了一系列新方法,主要集中在提示工程(prompt engineering)和微调(fine-tuning)上。原创 2024-09-13 08:31:35 · 1395 阅读 · 0 评论 -
【RAG】RAG再进化?基于长期记忆的检索增强生成新范式-MemoRAG
RAG现在工作很多,进化的也很快,再来看看一个新的RAG工作-MemoRAG。文章提出,RAG在减少大模型对于垂类知识的问答幻觉上取得了不错的效果,也成为私域知识问答的一种范式。然而,传统RAG系统主要适用于明确信息需求的问答任务,但在处理涉及模糊信息需求或非结构化知识的复杂任务时表现不佳。因为,现实世界中的许多问题信息需求是模糊的,外部知识是非结构化的,例如理解书籍中主要角色之间的相互关系。因此,研究难点如何有效处理模糊的信息需求如何从非结构化知识中提取有用信息。原创 2024-09-13 08:28:15 · 1153 阅读 · 0 评论 -
【RAG】LongRAG:利用长上下文LLMs增强检索增强生成
现有的RAG框架通常使用100词的短段落作为检索单元,这种设计使得检索器需要在大量语料库中搜索,增加了工作负担,并且容易引入难负样本,影响性能。LongRAG框架为了解决这一问题,该框架使用长检索单元(最多4K词),显著减少了语料库的大小(从22M减少到600K),从而减轻了检索器的负担,并提高了检索性能。LongRAG框架通过引入长检索器和长阅读器,减轻了检索器的负担,提高了检索质量和全文问答性能。该框架在不进行任何训练的情况下,达到了与最先进的全训练RAG模型相当的性能。原创 2024-09-06 09:02:50 · 1088 阅读 · 0 评论 -
【RAG】FastEmbed:一种轻量的快速文本嵌入工具
在进行文本嵌入时,尤其是RAG系统,有一个快速高效的文本嵌入工具是非常有必要的。因此,FastEmbed设计目标是提升计算效率,同时保持嵌入表示的质量。此外,FastEmbed还支持一些图像嵌入模型。高效的计算速度,适合大规模数据处理;使用ONNX Runtime实现最优性能。低资源消耗,适用于多种设备和环境。FastEmbed刻意减少了对外部资源的依赖,并选择了ONNX Runtime作为其运行时框架。灵活性强,可应用于不同的 NLP 任务。兼容GPU,支持GPU加速计算,进一步提升效率。原创 2024-08-26 09:56:46 · 482 阅读 · 0 评论 -
【文档智能 & RAG】浅看开源的同质化的文档解析框架-Docling
RAG的兴起,越来越多的人开始关注文档结构化解析的效果,这个赛道变得非常的同质化。关于文档智能解析过程中的每个技术环节的技术点,前期文章详细介绍了很多内容:下面我们简单的看看Docling这个PDF文档解析框架里面都有什么技术。文档智能解析现在非常同质化,实际上能解决自己场景文档解析的实用工具很少,不过可以参考下Docling工程上的具体优化,如多线程等。结合一些其他较强的开源或者自研的小模型,进行替换,打造自己的文档解析工具。原创 2024-08-26 09:55:48 · 1169 阅读 · 0 评论 -
【工具】onnx模型结构信息查看方式:netron、onnxruntime和onnx
将模型转为onnx格式进行部署时,对模型结构不是特别清楚,尤其是模型的输入输出结构时,通常使用一些工具进行查看。原创 2024-08-19 18:29:57 · 3505 阅读 · 0 评论 -
【文档智能 & RAG】RAG新基建-RAG性能增强关键技术点及通用文档解析工具-TextIn
在私有领域知识问答和企业知识管理领域,结合检索增强型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成为一种趋势。然而,在RAG系统的文档预处理阶段和检索阶段,经常碰到三个主要问题。企业内部常常积累了大量包含PDF格式的文档,这些文档的解析精度不足,严重制约了基于专业知识的问答系统的性能。因此,提高这些PDF文件的解析质量,对于构建高效的RAG系统至关重要。构建起一个完备的智能文档解析服务后,需要一个。原创 2024-07-19 11:47:01 · 2238 阅读 · 1 评论 -
【NLP & LLM】大模型结构化输出控制技巧及简历信息抽取结构化实践
在使用大模型进行信息抽取任务时,如何使得大模型的输出结果更加可控、稳定(输出稳定的json等)非常重要,这关系到抽取的数据后期开发使用。微调法:微调大模型输出稳定格式的结果(json等)few-shot法:通过在prompt中告知大模型几个示例,要求大模型输出相似的格式但是,尽管如此,在实际操作过程中,仍然会面对着输出不稳定的情况,那么,经常采用的方法就是对输出的结果进行校验,如:要求输出json时,常校验json是否合理。校验失败时,常对大模型进行重复请求多次,以此达到输出结构化的格式。原创 2024-07-19 11:28:29 · 2091 阅读 · 0 评论