深度学习机器-优快云博客

原创 MCP原理解析与效果实测|附实用MCP推荐

前面提到的Cursor相当于MCP架构中的Client（实际上是包含了Client的host），因此对于普通用户来说，只需要关注自身需要什么样的功能（Server），去找到相应的功能（Server）安装即可。对于开发者而言，如果需要让自己的程序能够使用已有的MCP Server，则需要针对自己的程序进行改造，使其符合MCP规范才行。目前官方也分别提供了Python 和 Js的SDK，可以很方便进行开发。

2025-03-30 16:53:08 355

原创 PandaAI：使用自然语言进行数据分析的利器

PandaAI是一个典型的Text2SQL智能体，核心原理是利用大模型将自然语言查询转换为可执行的代码，通过封装的.chat方法，将问题、表头和 5-10 行数据传递给大模型，然后由模型生成最相关的代码（Python 或 SQL），同时生成的代码在本地执行，并把产生的结果按照最符合问题的形式进行返回。基本上所有的Text2SQL都大同小异，而PandaAI额外支持了一些数据预处理的方法和自动选择特定格式进行输出，算是一些不错的亮点。

2025-03-30 16:48:33 945

原创 Docling：统一的多文档解析框架支持多种文档类型的处理与转换

对于每种文档格式，Docling会自动识别应该调用哪一种Pipeline进行解析处理，并且解析后可以导出不同的数据格式，如Markdown、字典等，甚至还能进一步进行分块处理。

2025-03-30 16:44:04 495 1

原创图解大模型注意力计算过程以及KV Cache原理

首先，我们看看大模型生成过程中每一步是怎么进行的。<Begin>是一个起始符，用于标记句子的开头。当模型的输入只有<Begin>的时候，模型输出概率最大的词I，表示在模型看来，以I作为句子的实际开头是合理的；当模型的输入变成<Begin>和I的时候，模型预测出下一个词大概率是have。依此类推，整个生成过程就是把模型预测出的词拼接到输入的句子中去，组成新的输入句子后，再让模型预测这个新输入句子的下一个词汇是什么。

2025-03-13 22:28:22 995

原创让浏览器AI起来：基于大模型Agent的浏览器自动化工具

agent默认的输出结果是文本，同时也支持自定义输出格式，实现结构化输出。if result:')')')')else:整个项目实际测试下来实用性不是很强，甚至连完成简单的谷歌搜索都得好一会儿，从后端的日志看应该是模型一些思考过程太多、步骤太冗余导致的。不过页面的html结构识别还比较完善，这对于精确触发一些页面事件应该是个好事。目前看来比较实用的agent就是这类项目，利用推理模型的推理能力+联网搜索整合出完善的研究报告。

2025-02-21 22:53:55 972 1

原创推理模型时代：大语言模型如何从对话走向深度思考？

对于推理模型，Promot工程同样并未失效，相反，Prompt工程中很多原则依旧不可忽视，如：清晰描述清楚需求。但是，由于推理模型自身的运行机制，需要提供比对话模型更加详细的上下文信息，同时明确表达想要的结果不要过多指导模型的实现过程。目前推理模型还处于发展初期，相信今年会有更多杰出和激动人心的研究成果发布。

2025-02-21 22:52:35 906

原创一文了解大模型性能评测数据、指标以及框架

笔者最近在对比浏览各种大模型性能时，发现不少机构发布的大模型成绩不是那么详细。排行榜仅存在数据集和分数，对于大多数人来说，可能就看个分数高低就忽略了。因此，本文整理了一些常见的评测数据集和指标说明，希望对于普通读者有所帮助。

2025-02-21 22:45:56 1200

原创 AI Agent Service Toolkit：一站式大模型智能体开发套件

在src/agents下新增自定义的agent模块。将新增的agent导入src/agents/agents.py。该项目默认提供了4种agent，其中的chatbot只能做简单的对话，因此笔者打算将其改造为智能问答阅读助手，可以用于解读上传的文件。只需修改src/streamlit_app.py。

2025-02-21 22:41:31 792

原创 DeepSeek官方推荐软件汇总

这段时间以来，各大云服务厂商先后推出DeepSeek API服务，不少国产芯片企业也纷纷宣布完成模型适配工作，基于DeepSeek也催生出许多应用层面的产品，这是自2022年底ChatGPT发布之后的又一次AI领域的盛况。个人感觉单纯从影响力来说，DeepSeek系列模型的发布，不仅仅像一个模型了，更像是一个底层操作系统或者一个全新的生态，在未来可能诞生更多的机会或杀手级别的应用。本文从DeepSeek官方推荐的应用或插件列表中，整理收集了一些比较热门或实用性较强的软件。

2025-02-21 22:33:01 991

原创 DeepSeek系列模型完全使用手册｜附安装教程

DeepSeek系列模型在去年12月发布以来引起了不少关注，而推理模型R1的发布则进一步点燃了国内外用户的热情。鉴于仍有不少用户完全没有使用经验，而网上现有的信息可能比较零碎，反而会导致初学者更加困惑。因此本文整理了DeepSeek系列模型的基本说明和一些使用方法，此外还提供了一个第三方客户端的安装教程，用于让初学者也能用上国产最强大的推理模型。

2025-02-03 15:22:25 2371

原创 Qwen2.5-VL：更强大的多模态大模型｜附实测结果

这版模型增强了对于文档的解析和问答效果，可以一定程度上替代OCR模型的使用，也具备关键信息提取的能力，同时能够实现格式化输出。表格解析和文档解析可能会有丢失格式的情况，在文档解析中，原始文档中的图片是没法复原的。这个过程可能也与提示词有关，或者需要多轮交互让模型输出正确的样式。

2025-02-01 11:12:41 1097

原创 DeepSeek-R1：开源Top推理模型的实现细节、使用与复现

● 直接用强化学习就可以让模型获得显著的推理能力，说明并不一定需要SFT才行。● 强化学习并不一定需要复杂的奖励模型，使用简单的规则反而取得意想不到的效果。● 通过知识蒸馏让小模型一定程度上也有推理能力，甚至在某些场景下的表现超过了Top模型，比直接在小模型上进行强化学习更好。

2025-01-28 10:47:33 1262

原创 AI实现个人阅读网页插件

日常工作中经常需要浏览各种Github项目或者一些网页，逐字逐句看总觉得不够效率，如果在每次打开一个新的页面时就能够掌握大概的内容，然后再决定是否深入阅读就方便多了。有了这样的念头后，总想自己开发一款简单的浏览器插件，但是始终没有提上日程。目前随着AI编程工具越来越强大和普及，使用AI进行辅助开发是程序员工作中不可缺少的一环，这篇文章就是记录利用前段时间免费开放的GitHub Copilot进行插件开发的过程和效果。

2025-01-25 10:36:09 770

原创热门开源Ai搜索引擎对比分析

Mindsearch的Agent设计比较复杂一些，会对问题进行拆解并多次检索，适用于一些深度的总结，有点类似于Perplexity的深度搜索模式。其他几个AI搜索引擎基本流程都是调用搜索引擎对问题进行检索，然后由模型对答案进行总结生成，Agent都比较固定，甚至有一些都没有对问题进行改写。此外，这些框架都能提供数据源支撑，并且生成相似的问题推荐，也是符合目前对主流搜索框架的要求。

2025-01-16 11:45:00 1168

原创仅需一个插件让关系型数据库实现图数据存储与检索

对于生产环境来说，PostgreSQL是最常用的数据库之一，有了Age这个插件，可以无缝为传统的RAG知识库服务提供图检索能力，真正做到All in one，同时也无需担心额外增加图数据库引入的复杂性和兼容问题。

2025-01-13 11:30:00 417

原创 GitHub Copilot免费上线！快速上手指南与功能解析

对话式聊天对话式编辑编辑器内联聊天快速聊天这4种方式分别有不同的使用场景，编辑主要是让AI直接在代码编辑区直接生成代码，聊天主要是与AI进行交互，例如可以要求解释代码、debug等。

2024-12-30 15:00:00 638

原创 LangGraph：基于图结构的大模型智能体开发框架

LangGraph的StateGraph是一种状态机，包含了节点和边，节点一般是定义好的函数，边用于连接不同的节点，用于表示图的执行顺序。初始化模型和工具定义图的状态信息定义图节点定义图的入口节点和边关系编译图执行图# 初始化模型# 定义图的状态信息# 定义图节点# 定义图的入口和边# 编译图# 执行图user_input = '介绍你自己'

2024-12-20 11:30:00 808

原创轻量高效的知识图谱RAG系统：LightRAG

除了从文档创建图谱外，LightRAG还支持以离线的方式添加实体或者关系以及原始chunk。},],],},},},],● 在构建图谱的过程中为每个实体节点和关系边生成一个文本的键值对。每个索引键是一个单词或短语，用于高效检索，对应的值是一个经过总结外部数据后生成的文本段落，，有助于文本生成。● 增量更新算法使得在新增文档的适合无需重新构建图谱，这使得LightRAG具有更显著的经济性和便捷性。

2024-12-12 19:54:34 475

原创 PostgreSQL 数据库向量化的核心：pgvector

pgvector是一款开源的向量搜索引擎，除了具备所有Postgres数据库的特性外，最主要的特点是能在Postgres数据库存储和检索向量数据，支持向量的精确检索和模糊检索。向量格式除了传统embedding模型的单精度浮点数外，还支持半精度浮点数，二元向量或者稀疏向量。

2024-11-24 10:26:39 1374

原创 PGML：向量数据库内一体化的RAG框架

省略上述检索步骤SELECTtask => '{}'::jsonb,args => '{}'::jsonb)FROMcontext;transform改成即变成流式输出优点：● 一体化的RAG框架，集成了多种开源模型和langchain的组件，可以直接在数据库中进行RAG构建● 支持多种机器学习算法，可以实现数据库内一站式的机器学习和数据分析● 全程SQL操作即可，适合传统数据分析人员或者对框架和其他编程语言不熟悉的人缺点：● 镜像内不含模型，实时拉取模型会比较慢。

2024-11-18 12:15:00 593

原创 Chunkr: 在线PDF文档解析与OCR工具

这部分属于（pdf-document-layout-analysis）的内容，可以移步查看具体模型的介绍和训练过程。1.1 机器学习模型基于LIGHTGBM算法，并且只需要使用CPU资源，因此对硬件要求不高，速度快，但是只能处理文字类型的PDF。1.2 VGT模型能处理图片PDF，同时把版面内容识别为11种类型如果对表格、图片、手写内容的识别精度有要求，则需要使用该模型。

2024-10-21 09:00:00 734

原创一文梳理RAG（检索增强生成）的现状与挑战

大模型相较于过去的语言模型具备更加强大的能力，但在实际应用中，例如在准确性、知识更新速度和答案透明度方面，仍存在不少问题，比如典型的幻觉现象。因此，检索增强生成 (Retrieval-Augmented Generation, RAG) 被当作于大模型应用开发的一种新范式。RAG是指在利用大语言模型回答问题之前，先从外部知识库检索相关信息，然后再让模型根据这些信息进行总结归纳，这样便能确保模型不会胡说八道，并且回答的内容是有所依据的。

2024-09-07 21:30:00 1610

原创大模型RAG应用开发之PDF解析工具对比

非扫描件无OCR要求直接使用即可，能正确保留双列布局的文本顺序，同时能提取表格和图片，而且表格是以List的格式保留。其余几个传统的PDF解析库倾向于对pdf进行编辑，比如添加水印，增加或者删除页面等。中文文档效果不好，而且还是通过API使用，但是每天有固定的免费额度，可以用于处理扫描件。deepdoc和MinerU是近期开源项目中比较强大的RAG解析工具。deepdoc优势点在于表格效果较好，亲测无边框的表格有大多数效果仍可圈可点，并且保留为html格式，因此允许合并单元格；MinerU。

2024-08-28 12:15:00 816

原创 Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！

比较准确。从上面的图可以看出，无论是可编辑的PDF还是扫描版的PDF，都能非常好的区分出版面中不同类型的部分，而且最终的结果是以Markdown的格式保存的，可以很容易把不同章节、不同自然段按需进行切分。

2024-08-01 13:15:00 1406

原创 RAG文档解析利器：Deepdoc

Deepdoc是RAG框架RAGFLOW中使用的文档解析工具。

2024-07-30 14:00:00 2511

原创 DB-GPT：LLM应用的集大成者

等，如本项目中提到的。

2024-07-22 21:21:00 630

原创基于Sentence Transformer微调向量模型

sentence transformer库升级到了V3，其中对模型训练部分做了优化，使得模型训练和微调更加简单了

2024-07-08 12:45:00 1429

原创热门开源Text2SQL框架

Chat2DB项目地址：https://github.com/chat2db/Chat2DB简介：Chat2DB是一个通用的SQL客户端和数据分析工具，能够辅助生成SQL，同时支持对话式的数据分析功能，提供了网页、客户端2种使用方式，它支持几乎所有流行的数据库，并且chat2DB还开源了7B的SQL模型。特性：SQL生成、智能报告、数据探索。架构： SQL Chat项目地址：https://github.com/sqlchat/sqlchat简介：SQL Chat 是一个基于聊天

2024-06-27 12:45:00 651

原创记使用pdf.js过程遇到的坑

最近项目中需要用到js库来渲染pdf文件，调研后发现无论是reach-pdf.js或者是svelte-pdf.js都是在pdf.js基础上做了些许精简，反而功能还不如原始的pdf.js来得全面。但是原始的库几乎没有像样的代码示例，而能搜索到的大多数代码不少都是十几年前的了，在这个过程中踩了不少坑，做个记录，希望对看到的人有所帮助。

2024-05-16 13:00:00 1351

原创开源RAG框架汇总

本文搜集了一些开源的基于LLM的RAG（Retrieval-Augmented Generation）框架

2024-05-11 12:45:00 6667

原创【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度

虽然目前二阶段方法用来提升RAG的性能表现越来越受到关注，但是具体来看，其中所含的技术都是早就有的内容。Cross-Encoder这种架构在当时显得比较鸡肋，只能用来比较句子的相似度，甚至无法输出向量，在大部分自然语言处理场景中都不受待见，谁能想到在如今又焕发生机了呢？

2024-04-26 13:15:00 1011

原创【高级RAG技巧】在大模型知识库问答中增强文档分割与表格提取

openparse这个库算是目前开源社区中比较优秀的文档分割处理库了，功能虽然全面，还是还有不少可以优化的地方，后续也会支持其他向量化模型，并且可以跟LlamaindexLangchain等框架无缝衔接，应该值得持续关注。

2024-04-19 12:30:00 3675

原创向量数据库之Lancedb学习记录

Lancedb是一个用于人工智能的开源矢量数据库，旨在存储、管理、查询和检索大规模多模式数据的嵌入。Lancedb的核心是用Rust编写的，并构建在Lance之上，专为高性能 ML 工作负载和快速随机访问而设计。

2024-04-15 19:25:39 4267

原创向量数据库Chroma学习记录

Chroma是一款AI开源向量数据库，用于快速构建基于LLM的应用，支持Python和Javascript语言。具备轻量化、快速安装等特点，可与Langchain、LlamaIndex等知名LLM框架组合使用。

2024-04-13 18:00:00 2209 3

原创大白话扩散模型（无公式版）

虽然原始论文涉及到的知识包括随机分布，马尔科夫链等，而且推导过程极其复杂，但本文不会深入去推导相关的公式，而是把重心放在思考这个过程以及对其中发现的一些问题进行探讨。，因为一开始图片质量很高，加很小的噪声就发生很大的变化，而越后面的图片含有噪声越多，失真越严重，必须加更大的噪声才能引起较大变化。如果玩过文生图的话就能发现，选择了一定的采样步数后，前几步图片变化非常大，从模糊的噪声逐渐出现轮廓，后面几步基本不变，只是一些细节发生了变化。，然后我们用来进行训练一个模型，拟合训练数据的分布之后，就可以预测出。

2024-03-24 13:23:39 898

空空如也

空空如也