RAG_深度学习机器的博客-优快云博客

RAG

关注

文章平均质量分 83

关注数：文章数：28 文章阅读量：30070 文章收藏量：364

作者: 深度学习机器

前大厂算法工程师，现小厂全栈开发。写写代码，记录开发之路。公众号：深度学习机器个人网站：https://dlmachine.top Github: https://github.com/zishengwu

展开

SmolDocling-256M：极小参数量的视觉语言模型|端到端文档解析方案的另一种思路

传统的一站式文档解析工具，包含布局分析、OCR和表格识别等，往往需要结合多个独立的模型，同时根据处理任务的不同调用不同的模型，增加了处理流程的复杂度，并且难以泛化到不同的文档类型。大型视觉语言模型（LVLMs）虽然提供端到端的解决方案，但是计算成本高，如Qwen2.5VL系列模型，至少7B以上的模型才有不错的效果，这对于文档解析这种轻量型的任务来说计算负担太重了。

原创 2025-05-29 19:45:40 · 533 阅读 · 0 评论
一文看懂现役最强开源模型Qwen3

感觉本次Qwen3最大的亮点就是模型原生支持思考模式和非思考模式，可以根据不同的任务需要选择不同的模式，无需跟往常一样同时部署推理模型和对话模型，一个模型即可搞定所有工作。思考模式：在这种模式下，模型会逐步推理，适合需要深入思考的复杂问题。非思考模式：在此模式中，模型提供快速、近乎即时的响应，适用简单问题。

原创 2025-05-29 19:44:35 · 648 阅读 · 0 评论
告别RAG上下文丢失：Late Chunking 与 Contextual Retrieval 深度对比解析

Late Chunking和Contextual Retrieval都为传统分块方法中固有的上下文丢失问题提供了各自的解决方案：● Late Chunking 采用“先嵌入后分块”的方式，在多个分块之间保留语义信息，利用的是模型结构的特点，不会造成额外的消耗；● Contextual Retrieval 则基于LLM为每个分块添加文档范围的上下文信息进行增强，会造成大量的token损耗，同时效果高度依赖于所使用的LLM。

原创 2025-05-29 19:43:14 · 913 阅读 · 0 评论
Ollama-OCR：基于Ollama多模态大模型的端到端文档解析和处理

Ollama-OCR 提供多种输出格式以适应不同场景：● Markdown：保留结构化格式，包括标题和列表● 纯文本：提取干净、无格式的文本● JSON：便于集成的结构化数据输出● 结构化格式：提取并组织表格和层级内容● 键值对：适合处理表单、发票和收据● 表格：高效提取所有表格数据。

原创 2025-05-24 21:39:55 · 390 阅读 · 0 评论
MCP原理解析与效果实测|附实用MCP推荐

前面提到的Cursor相当于MCP架构中的Client（实际上是包含了Client的host），因此对于普通用户来说，只需要关注自身需要什么样的功能（Server），去找到相应的功能（Server）安装即可。对于开发者而言，如果需要让自己的程序能够使用已有的MCP Server，则需要针对自己的程序进行改造，使其符合MCP规范才行。目前官方也分别提供了Python 和 Js的SDK，可以很方便进行开发。

原创 2025-03-30 16:53:08 · 428 阅读 · 0 评论
PandaAI：使用自然语言进行数据分析的利器

PandaAI是一个典型的Text2SQL智能体，核心原理是利用大模型将自然语言查询转换为可执行的代码，通过封装的.chat方法，将问题、表头和 5-10 行数据传递给大模型，然后由模型生成最相关的代码（Python 或 SQL），同时生成的代码在本地执行，并把产生的结果按照最符合问题的形式进行返回。基本上所有的Text2SQL都大同小异，而PandaAI额外支持了一些数据预处理的方法和自动选择特定格式进行输出，算是一些不错的亮点。

原创 2025-03-30 16:48:33 · 1066 阅读 · 0 评论
Docling：统一的多文档解析框架支持多种文档类型的处理与转换

对于每种文档格式，Docling会自动识别应该调用哪一种Pipeline进行解析处理，并且解析后可以导出不同的数据格式，如Markdown、字典等，甚至还能进一步进行分块处理。

原创 2025-03-30 16:44:04 · 622 阅读 · 0 评论
图解大模型注意力计算过程以及KV Cache原理

首先，我们看看大模型生成过程中每一步是怎么进行的。<Begin>是一个起始符，用于标记句子的开头。当模型的输入只有<Begin>的时候，模型输出概率最大的词I，表示在模型看来，以I作为句子的实际开头是合理的；当模型的输入变成<Begin>和I的时候，模型预测出下一个词大概率是have。依此类推，整个生成过程就是把模型预测出的词拼接到输入的句子中去，组成新的输入句子后，再让模型预测这个新输入句子的下一个词汇是什么。

原创 2025-03-13 22:28:22 · 1042 阅读 · 0 评论
推理模型时代：大语言模型如何从对话走向深度思考？

对于推理模型，Promot工程同样并未失效，相反，Prompt工程中很多原则依旧不可忽视，如：清晰描述清楚需求。但是，由于推理模型自身的运行机制，需要提供比对话模型更加详细的上下文信息，同时明确表达想要的结果不要过多指导模型的实现过程。目前推理模型还处于发展初期，相信今年会有更多杰出和激动人心的研究成果发布。

原创 2025-02-21 22:52:35 · 993 阅读 · 0 评论
AI Agent Service Toolkit：一站式大模型智能体开发套件

在src/agents下新增自定义的agent模块。将新增的agent导入src/agents/agents.py。该项目默认提供了4种agent，其中的chatbot只能做简单的对话，因此笔者打算将其改造为智能问答阅读助手，可以用于解读上传的文件。只需修改src/streamlit_app.py。

原创 2025-02-21 22:41:31 · 839 阅读 · 0 评论
DeepSeek官方推荐软件汇总

这段时间以来，各大云服务厂商先后推出DeepSeek API服务，不少国产芯片企业也纷纷宣布完成模型适配工作，基于DeepSeek也催生出许多应用层面的产品，这是自2022年底ChatGPT发布之后的又一次AI领域的盛况。个人感觉单纯从影响力来说，DeepSeek系列模型的发布，不仅仅像一个模型了，更像是一个底层操作系统或者一个全新的生态，在未来可能诞生更多的机会或杀手级别的应用。本文从DeepSeek官方推荐的应用或插件列表中，整理收集了一些比较热门或实用性较强的软件。

原创 2025-02-21 22:33:01 · 1071 阅读 · 0 评论
DeepSeek系列模型完全使用手册｜附安装教程

DeepSeek系列模型在去年12月发布以来引起了不少关注，而推理模型R1的发布则进一步点燃了国内外用户的热情。鉴于仍有不少用户完全没有使用经验，而网上现有的信息可能比较零碎，反而会导致初学者更加困惑。因此本文整理了DeepSeek系列模型的基本说明和一些使用方法，此外还提供了一个第三方客户端的安装教程，用于让初学者也能用上国产最强大的推理模型。

原创 2025-02-03 15:22:25 · 2528 阅读 · 0 评论
Qwen2.5-VL：更强大的多模态大模型｜附实测结果

这版模型增强了对于文档的解析和问答效果，可以一定程度上替代OCR模型的使用，也具备关键信息提取的能力，同时能够实现格式化输出。表格解析和文档解析可能会有丢失格式的情况，在文档解析中，原始文档中的图片是没法复原的。这个过程可能也与提示词有关，或者需要多轮交互让模型输出正确的样式。

原创 2025-02-01 11:12:41 · 1246 阅读 · 0 评论
AI实现个人阅读网页插件

日常工作中经常需要浏览各种Github项目或者一些网页，逐字逐句看总觉得不够效率，如果在每次打开一个新的页面时就能够掌握大概的内容，然后再决定是否深入阅读就方便多了。有了这样的念头后，总想自己开发一款简单的浏览器插件，但是始终没有提上日程。目前随着AI编程工具越来越强大和普及，使用AI进行辅助开发是程序员工作中不可缺少的一环，这篇文章就是记录利用前段时间免费开放的GitHub Copilot进行插件开发的过程和效果。

原创 2025-01-25 10:36:09 · 875 阅读 · 0 评论
热门开源Ai搜索引擎对比分析

Mindsearch的Agent设计比较复杂一些，会对问题进行拆解并多次检索，适用于一些深度的总结，有点类似于Perplexity的深度搜索模式。其他几个AI搜索引擎基本流程都是调用搜索引擎对问题进行检索，然后由模型对答案进行总结生成，Agent都比较固定，甚至有一些都没有对问题进行改写。此外，这些框架都能提供数据源支撑，并且生成相似的问题推荐，也是符合目前对主流搜索框架的要求。

原创 2025-01-16 11:45:00 · 1433 阅读 · 0 评论
仅需一个插件让关系型数据库实现图数据存储与检索

对于生产环境来说，PostgreSQL是最常用的数据库之一，有了Age这个插件，可以无缝为传统的RAG知识库服务提供图检索能力，真正做到All in one，同时也无需担心额外增加图数据库引入的复杂性和兼容问题。

原创 2025-01-13 11:30:00 · 457 阅读 · 0 评论
LangGraph：基于图结构的大模型智能体开发框架

LangGraph的StateGraph是一种状态机，包含了节点和边，节点一般是定义好的函数，边用于连接不同的节点，用于表示图的执行顺序。初始化模型和工具定义图的状态信息定义图节点定义图的入口节点和边关系编译图执行图# 初始化模型# 定义图的状态信息# 定义图节点# 定义图的入口和边# 编译图# 执行图user_input = '介绍你自己'

原创 2024-12-20 11:30:00 · 897 阅读 · 0 评论
轻量高效的知识图谱RAG系统：LightRAG

除了从文档创建图谱外，LightRAG还支持以离线的方式添加实体或者关系以及原始chunk。},],],},},},],● 在构建图谱的过程中为每个实体节点和关系边生成一个文本的键值对。每个索引键是一个单词或短语，用于高效检索，对应的值是一个经过总结外部数据后生成的文本段落，，有助于文本生成。● 增量更新算法使得在新增文档的适合无需重新构建图谱，这使得LightRAG具有更显著的经济性和便捷性。

原创 2024-12-12 19:54:34 · 566 阅读 · 0 评论
PostgreSQL 数据库向量化的核心：pgvector

pgvector是一款开源的向量搜索引擎，除了具备所有Postgres数据库的特性外，最主要的特点是能在Postgres数据库存储和检索向量数据，支持向量的精确检索和模糊检索。向量格式除了传统embedding模型的单精度浮点数外，还支持半精度浮点数，二元向量或者稀疏向量。

原创 2024-11-24 10:26:39 · 1529 阅读 · 0 评论
PGML：向量数据库内一体化的RAG框架

省略上述检索步骤SELECTtask => '{}'::jsonb,args => '{}'::jsonb)FROMcontext;transform改成即变成流式输出优点：● 一体化的RAG框架，集成了多种开源模型和langchain的组件，可以直接在数据库中进行RAG构建● 支持多种机器学习算法，可以实现数据库内一站式的机器学习和数据分析● 全程SQL操作即可，适合传统数据分析人员或者对框架和其他编程语言不熟悉的人缺点：● 镜像内不含模型，实时拉取模型会比较慢。

原创 2024-11-18 12:15:00 · 630 阅读 · 0 评论
Chunkr: 在线PDF文档解析与OCR工具

这部分属于（pdf-document-layout-analysis）的内容，可以移步查看具体模型的介绍和训练过程。1.1 机器学习模型基于LIGHTGBM算法，并且只需要使用CPU资源，因此对硬件要求不高，速度快，但是只能处理文字类型的PDF。1.2 VGT模型能处理图片PDF，同时把版面内容识别为11种类型如果对表格、图片、手写内容的识别精度有要求，则需要使用该模型。

原创 2024-10-21 09:00:00 · 809 阅读 · 0 评论
一文梳理RAG（检索增强生成）的现状与挑战

大模型相较于过去的语言模型具备更加强大的能力，但在实际应用中，例如在准确性、知识更新速度和答案透明度方面，仍存在不少问题，比如典型的幻觉现象。因此，检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前，先从外部知识库检索相关信息，然后再让模型根据这些信息进行总结归纳，这样便能确保模型不会胡说八道，并且回答的内容是有所依据的。

原创 2024-09-07 21:30:00 · 1716 阅读 · 0 评论
大模型RAG应用开发之PDF解析工具对比

非扫描件无OCR要求直接使用即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU。

原创 2024-08-28 12:15:00 · 939 阅读 · 0 评论
Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！

比较准确。从上面的图可以看出，无论是可编辑的PDF还是扫描版的PDF，都能非常好的区分出版面中不同类型的部分，而且最终的结果是以Markdown的格式保存的，可以很容易把不同章节、不同自然段按需进行切分。

原创 2024-08-01 13:15:00 · 1718 阅读 · 0 评论
RAG文档解析利器：Deepdoc

Deepdoc是RAG框架RAGFLOW中使用的文档解析工具。

原创 2024-07-30 14:00:00 · 3237 阅读 · 0 评论
DB-GPT：LLM应用的集大成者

等，如本项目中提到的。

原创 2024-07-22 21:21:00 · 672 阅读 · 0 评论
基于Sentence Transformer微调向量模型

sentence transformer库升级到了V3，其中对模型训练部分做了优化，使得模型训练和微调更加简单了

原创 2024-07-08 12:45:00 · 1502 阅读 · 0 评论
热门开源Text2SQL框架

Chat2DB项目地址：https://github.com/chat2db/Chat2DB简介：Chat2DB是一个通用的SQL客户端和数据分析工具，能够辅助生成SQL，同时支持对话式的数据分析功能，提供了网页、客户端2种使用方式，它支持几乎所有流行的数据库，并且chat2DB还开源了7B的SQL模型。特性：SQL生成、智能报告、数据探索。架构： SQL Chat项目地址：https://github.com/sqlchat/sqlchat简介：SQL Chat 是一个基于聊天

原创 2024-06-27 12:45:00 · 786 阅读 · 0 评论

RAG

作者: 深度学习机器

SmolDocling-256M：极小参数量的视觉语言模型|端到端文档解析方案的另一种思路

一文看懂现役最强开源模型Qwen3

告别RAG上下文丢失：Late Chunking 与 Contextual Retrieval 深度对比解析

Ollama-OCR：基于Ollama多模态大模型的端到端文档解析和处理

MCP原理解析与效果实测|附实用MCP推荐

PandaAI：使用自然语言进行数据分析的利器

Docling：统一的多文档解析框架 支持多种文档类型的处理与转换

图解大模型注意力计算过程以及KV Cache原理

推理模型时代：大语言模型如何从对话走向深度思考？

AI Agent Service Toolkit：一站式大模型智能体开发套件

DeepSeek官方推荐软件汇总

DeepSeek系列模型完全使用手册｜附安装教程

Qwen2.5-VL：更强大的多模态大模型｜附实测结果

AI实现个人阅读网页插件

热门开源Ai搜索引擎对比分析

仅需一个插件让关系型数据库实现图数据存储与检索

LangGraph：基于图结构的大模型智能体开发框架

轻量高效的知识图谱RAG系统：LightRAG

PostgreSQL 数据库向量化的核心：pgvector

PGML：向量数据库内一体化的RAG框架

Chunkr: 在线PDF文档解析与OCR工具

一文梳理RAG（检索增强生成）的现状与挑战

大模型RAG应用开发之PDF解析工具对比

Magic-PDF：端到端PDF文档解析神器 构建高质量RAG必备！

RAG文档解析利器：Deepdoc

DB-GPT：LLM应用的集大成者

基于Sentence Transformer微调向量模型

热门开源Text2SQL框架

Docling：统一的多文档解析框架支持多种文档类型的处理与转换

Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！