水的精神-优快云博客

原创利用模型写survey（综述）类型的论文

这里是Ai写论文的链接这篇论文和我去年写的专利中的思路很像，流程也基本一样。但是细节工作做的更扎实一些。分享从论文中看到的可吸收的点，和不足的点。

2025-03-24 01:06:52 260

原创 AI-researcher （港大论文写作）调研

港大开源了一个ai写论文的框架 ai-researcher，看下边的宣传非常的出色（ai能够自己做实验，并完成代码的实验，跑出来测试数据，并最后能够整理实验数据，最后完成论文的写作）。但是实际体验下来，更像是预制菜。使用门槛太高了，一点也不智能。而且开源的文档真的太粗糙了，根据官方的示例根本没法运行。不过这篇文章，主要探讨其核心逻辑。

2025-03-23 12:37:20 1156 2

原创 MCP（model content protocol）调研

前两周深度调研来MCP，也深度的体验了MCP（这篇文章整理里详细的资料）。一个本质问题，MCP实际上在构建function call的参数。世纪感受下来，虽然MCPserver非常多，但是实际使用起来一言难进，感觉都是完整度在10%-30%的半成品。此外即使配合claude使用这些工具也挺难用的。

2025-03-23 11:50:15 855

原创 deep-research开源框架 Agentic Reasoning

Agentic Reasoning 框架通过动态调用外部搜索、代码执行和结构化记忆工具，为大语言模型注入了“外部大脑”。这种方法不仅克服了传统内部推理的局限，还实现了多步、跨领域的深度逻辑推理。随着不断完善和扩展，这一框架有望在推动智能系统向专家级决策、深度研究和跨模态分析方向发展上发挥关键作用。

2025-03-03 23:44:53 904

多个不同的角色的Agent，共同完成一份复杂的工作。由一个统筹管理的智能体，自主规划多个智能体分别做什么，以及执行的顺序。agent 应该包含的属性执行特定任务根据其角色和目标做出决策能够使用工具来实现目标与其他代理沟通和协作保留互动记忆在允许的情况下委派任务如何协作是关键条件自主：通过编码，顺序执行。高度自主：能够自行决定不同角色Agent的是否要执行，以及执行顺序。主要关注的点：1、自主性2、开发人员能够控制的精度 (可编码改造)一、汇总特性AutoGen。

2025-02-26 00:13:59 702

原创 deep-research 专用评测数据集

数据集内容：该测试包含 2,700 道题，涉及数十个学科，包括数学、人文科学和自然科学。HLE 由全球学科专家开发，包含适合自动评分的多项选择题和简答题。数据特点精确匹配问题（模型需输出一个精确的字符串作为答案）和多项选择题（模型需从五个或更多选项中选择一个正确答案）。HLE 是一个多模态基准，其中约13% 的问题需要理解文本和图像。24% 的问题是多项选择题，其余为精确匹配问题。问题文本、答案说明（包括精确匹配答案，或多项选择答案及正确答案标注）、详细的解题逻辑所属学科，以及贡献者的姓名和机构信息。

2025-02-26 00:13:51 1239

原创 lightRAG 论文阅读笔记

论文原文这里我先说一下自己的感受，这篇论文整体看下来，没有太多惊艳的地方。核心就是利用知识图谱，通过模型对文档抽取实体和关系。然后基于此来构建查询。核心问题还是在解决知识之间的连接问题。

2024-12-16 00:06:52 1302 1

原创召回的在线评估与离线评估

本文介绍了召回系统的两种评估方式：离线评估和在线评估。离线评估基于标注数据，通过准确率、召回率、F1-Score 等指标衡量模型效果，适合开发初期的算法调试。在线评估则依赖用户行为，如点击率、转化率和停留时长等指标，能够更真实地反映模型在实际环境中的表现。文章详细探讨了各类评估指标的定义、适用场景及其优缺点，并指出最佳实践是先通过离线评估优化模型，再通过在线评估验证其实际效果。

2024-09-23 21:02:36 1418

原创量化在密集向量检索中的权衡：深入分析索引时间、查询效率与召回效果

在现代信息检索系统中，向量搜索已成为提升检索质量和效率的关键技术。随着数据量的激增，如何高效地处理和检索大规模向量数据集，成为了一个重要课题。最近，我在研究一篇关于密集和稀疏检索器的论文——《Operational Advice for Dense and Sparse Retrievers: HNSW, Flat, or Inverted Indexes?》——它为我们提供了关于量化技术在实际应用中的见解。本文将深入探讨量化技术在索引时间、查询效率和召回效果方面的影响。

2024-09-17 23:22:32 611

原创稠密向量检索、稀疏向量检索、BM25检索三者对比

稠密向量检索，也称为Dense Retrieval，是一种基于深度学习的检索方法。它通过将文本转换为高维空间中的连续向量表示，然后使用向量相似度（如余弦相似度）来检索相关文档。这种方法的优势在于能够捕捉到文本的深层次语义信息，从而提高检索的相关性。技术实现：通常使用预训练的语言模型（如BERT、T5）对文档和查询进行编码，得到稠密的向量表示。应用场景：适用于需要理解复杂语义的场景，如自然语言理解、智能问答系统等。性能表现：在小规模数据集上表现优异，但在大规模数据集上可能会遇到性能瓶颈。

2024-09-17 22:28:01 4491

原创 RAG 基准测试（法律领域）测试数据集分享

最近的一部分工作，有在做RAG的benchmark。年初三四月份（2024）的时候，调研已有的测试方案的时候，相关工作很少，只有一篇论文。最近再看相关的测试数据集又多了一些。我们虽然也有构建数据集，但是还是相对少一些。今天分享一篇论文，RAG关于法律领域的测试数据集。通常这种数据集需要一些领域知识，才能更好的更充分的构建出来这个数据集。实际上，评估RAG的能力，使用通用数据集是远远不够的。专门的领域测试数据集更权威和合理一些，更能够真实的反应RAG在实际使用场景中的能力。

2024-09-16 17:23:40 2284 4

原创 Elasticsearch向量检索（KNN）千万级耗时长问题分析与优化方案

第一次对索引进行查询时，如果预加载的文件（如 .vec、.vem、.vex 文件）尚未被加载到内存中，Elasticsearch 需要从磁盘读取这些文件，并将它们加载到内存中。占用的是服务器的内存。对于es条件，相同的条件会命中缓存，在测试过程中，应该通过替换检索条件的内容，来避免查询缓存的影响。当新的段文件生成（例如在写入数据或合并段时），这些新的段文件同样需要在首次访问时加载到内存中，这也可能导致第一次查询变慢。经过排查发现，检索的过程中，只用knn检索，耗时短，加上ANN检索后，耗时变长。

2024-08-26 13:11:36 2172

原创 ES 近一年新版本，关于knn的新功能与优化

近一年，es发布了很多个版本。本文，主要整理了es关于knn搜索相关的优化项。也放了官方文档的链接。

2024-08-26 12:56:38 1489

原创 qwen2技术报告

这篇论文是关于Qwen2系列的技术分析报告，由阿里巴巴集团的Qwen团队撰写。Qwen2是一系列大型语言模型和大型多模态模型的最新成员。引言介绍了大型语言模型（LLMs）的发展背景，特别是OpenAI的ChatGPT和Meta的Llama系列。Qwen2系列是在Qwen和Qwen1.5的基础上进一步发展的，包括基础语言模型和指令调优模型。分词器与模型描述了Qwen2使用的分词器，基于字节级别的字节对编码。介绍了Qwen2模型的架构，包括密集模型和专家混合模型（MoE）。预训练。

2024-07-20 21:10:14 1707

原创开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求：需要的是文档的完整段落，标题，图片，表格。我们希望删除的是md格式，或者josn格式。MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。

2024-07-20 13:31:32 8911 6

原创一篇论文分享，以多模态的形式来做RAG的研究

这篇论文，给我很强的割裂感和冲击感。非常值得阅读。我是做RAG相关研究工作的，过去一年在做传统的RAG，就是标准的文档解析，chunk，召回，排序，模型生成答案这条路。深谙RAG的复杂，中间要优化的环节太多了。中间要翻的大山太多了，其中文档解析，文件理解，再到去定义M+1个召回策略，很复杂。这篇论文直击痛点，让我觉得很哇塞。这篇论文给很大的冲击感，颠覆了传统的路线，让我觉得如沐春风。论文提出使用依靠多模态模型，来做RAG，这样只需要使用文档的截图就可以了。

2024-07-19 08:00:00 1882

原创最新开源的解析效果非常好的PDF解析工具MinerU （pdf2md pdf2json）

毫不夸张的说PDF解析工具MinerU是照进RAG黑暗中的一道光——这是我对它的评价。我测过太多了文档解析工具！最近在做文档解析的工作。看了很多的开源的文档解析的工具，版面分析的工具，其中包括paddelpaddel这样30k+star的明星工具。但是效果都觉得不好。MinerU是一个最近开源的文档解析工具，可以把PDF转成json结构，还可以转成md格式。可以解析得到其中的图片，表格，可以得到段落，可以得到标题，这是很哇塞的事情。因为最近RAG特别火热，这些都是RAG非常需要的。

2024-07-18 22:24:38 22838 17

原创最新开源的PDF版面分析工具 PDF-Extract-Kit

最近有一个新开源的版面分析的模型，做PDF版面分析效果非常好。而且对公式的解析效果比较好。虽然现在star数量不高，但是绝对会涨起来的。我们调研对比过很多开源的工具，效果都强差人意，这个是我看到的最满意的一个。甚至要比我们生产环境的都要好一些。这里分享一下详细的安装过程。 github上的的教程太粗糙了。我把遇到的问题和解决方法都写了出来。这篇文章分享的是在windows10下安装的案例。且以cpu启动。最终可以成功启动。

2024-07-18 21:55:25 4707 1

原创关于文档理解相关工作的一些总结

过去四年时间，都在处理结构化数据的存储优化相关的工作。最近一段时间在做RAG相关的工作。非结构数据的存储与检索，接触的也越来越多。这篇文章聊聊最近一段时间关于文档理解方面的一些心得。

2024-07-14 23:12:03 1021 2

原创 RAG 效果提升的最后一步—— 微调LLM

如果说，rerank能够让RAG的效果实现百尺竿头更进一步，那么LLM微调应该是RAG效果提升的最后一步。把召回的数据，经过粗排，重排序后，送给模型，由模型最后总结答案。LLM的确已经是RAG的最后一步了。这里还是会遇到一个问题，召回的正确的答案，但是答案藏在比较长的上下文中。例如 top10的数据，又或者是top20的数据中。这非常考验模型的能力。看到一篇论文，非常好，在分享如何微调LLM，来做好这最后一步。

2024-07-14 02:04:42 849

原创 RAG 召回提升相关方案分享

最近大半年时间都在做RAG的工作，分享一点个人探索的方向。和提升的方案。文章中会分享是如何做的，以及对应的效果。

2024-07-13 15:50:33 3768

原创搜索引擎中的相关性模型

相关性模型主要关注的是query和doc的相关性。例如给定query，和1000个doc，找到哪个doc是好query最相关的。

2024-07-13 13:52:36 1307

原创 RAG的上限在哪里？边界在哪里？

随着大模型的火热，RAG也重出江湖，成为AI产品中最火热的成员之一。特别是2024年到现在，越来越多的RAG产品出现在gitlib 上。世人皆知RAG，唯独不知RAG的能力边界。 RAG用一句话：入门（demo跑通整个流程）像1一样容易，出神入化（能够达到生产级别的要求）真的还挺难。 RAG相关的工作，做了一年又余。随着时间变化，愈来愈觉得，RAG需要特别多的知识才能真的把它做好。而我在不断的补这些知识，这是一条挺难的路。（我自己把它单做“蜀道难”的登山路）

2024-07-11 23:57:24 2367

原创搜索引擎AP调研报告

这篇文章分享给做AI搜索的朋友们。少走一些重复的路把。希望这些结果能够帮到大家。这里再分享一些心得。其实我们也在想，为什么现在已经有的AI搜素，他们的联网查询为何这么快？为什么这么稳定？像国内AI搜索做的比较好的，kimi，秘塔，360ai搜索。其中秘塔是被猎豹控股的（猎豹本身就是做搜索引擎的），360浏览器本身也是做搜索引擎的。他们的联网搜索并不是走的爬取网页的方式。前段时间分析过kimi的联网查询，大概率是bing的接口。不过现在就不一定了。

2024-07-11 23:26:52 1417

原创搜索引擎算法工程师，在query理解方面，都有哪些方面的工作

通俗来讲，就是query整形。又可以理解为是一个转接头，把用户送来过来的奇奇怪怪的query（或者说是在搜索引擎看来是奇奇怪怪的query）转换为搜索引擎最想看到的query的。在LLM当前能力的帮助下，实际上query理解的工作好做多了。即使没有太多基础的玩家，实际上完全可以依赖LLM来做这件事。对于任何一个环节，就是一个prompt的事情。这绝对是会有收益的。问题是成本，以及性能。一个检索需求的时延要求多数是3s内，如果只靠LLM是很难控制在3s内的。

2024-07-11 23:05:11 1695

原创使用模型来做召回和排序

文本检索任务可以定义为: 给定一个文档集合，用户输入一个query来表达信息检索需求，借助于一个文本检索系统返回相关文档给用户。日常生活中，我们几乎天天都在用文本检索系统，比如谷歌、百度搜索，淘宝电商搜索，搜索系统已经成为用户获取信息的一个重要入口。对于文本检索任务，抽象出来的核心目标就是怎么去计算用户输入的 query和文档集合中每个doc的文本相似度。

2024-05-23 13:27:53 1611 4

原创开源RAG，本地mac启动 dify源码服务

参考官方文档来操作，基本没太大的问题。一些细节，我在本篇文章中补充了出来。这篇文章主要讲以源码的方式启动后端服务，前端服务使用容器启动。Dify 本地源码部署文档（有本地源码部署，我们才能在源码上继续做修改）先知道要花费多少资源这里docker 容器，占用了8个G的内存！# 创建名为 dify 的 Python 3.10 环境# 切换至 dify Python 环境可以进入到自己的代码常用目录，再拉取代码进入到dify目录可以看到请记住web 和 api的路径，后边会用到。

2024-05-23 00:22:58 3775

原创关于搜索引擎链路

搜索引擎的工作流程包括爬虫抓取网页内容、索引处理、查询处理、检索与排名以及结果呈现。在查询处理阶段，搜索引擎需进行多个步骤来优化搜索效果。首先是分词，将查询词分解为独立词汇单元。接着是词权重判别，识别查询中的关键和非关键部分。然后进行类目识别与分类，以提高检索准确性。意图识别也是关键步骤，通过识别查询中的时效性和地域性意图，提升搜索结果的相关性。查询词改写和纠错则帮助改进用户输入，增强搜索匹配度。召回阶段包括关键词召回（如BM25）和语义召回（如DSSM双塔模型），用于匹配相关文档。最后，通过排序模型对召回

2024-05-20 00:14:40 1429

HLE 测试数据集 question使用模型翻译成为中文 数据都整理 为excel格式

空空如也

HLE 测试数据集 question使用模型翻译成为中文数据都整理为excel格式