- 博客(717)
- 资源 (9)
- 收藏
- 关注

原创 DeepSeek-R1复现方案梳理
在 100 步时,解方程的成功率约为 25%,并且模型开始用文字进行 “推理”;近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。由huggingface组建,目前刚上线2周,发布了最新进展open-r1/update-1,在MATH-500任务上接近deepseek的指标,可以在open-r1/open-r1-eval-leaderboard查看指标的排行榜。
2025-02-12 22:36:59
1398

原创 从零搭建机器学习平台Kubeflow
来自官网的一段介绍: Kubeflow 项目致力于使机器学习 (ML) 工作流在 Kubernetes 上的部署变得简单、可移植和可扩展。Kubeflow的目标不是重新创建其他服务,而是提供一种直接的方法,将用于 ML 的同类最佳开源系统部署到不同的基础设施中。在任何运行 Kubernetes 的地方,开发者都应该能够运行 Kubeflow。从官网这段介绍可以看出,Kubeflow与Kubernetes是形影不离的。
2022-12-25 03:59:33
9934
5

原创 Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定#作者微信:2501902696from PIL import Imageimport pytesseract#上面都是导包,只需要下面这一行就能实现图片文字识别text=pytesseract.image_...
2017-09-20 14:15:00
24269
原创 RAG数据集综述
检索增强生成(Retrieval-Augmented Generation, RAG)作为连接外部知识与生成模型的关键技术,近年来在自然语言处理领域取得了显著进展。本文系统梳理了143个RAG相关数据集,基于任务特性构建了包含7个大类、12个子类的分类体系,涵盖问答、事实核查、知识密集型任务、多模态任务等核心领域。通过表格形式详细对比了各类数据集的规模、评估指标与典型性能,并分析了当前RAG数据集在领域覆盖、评估体系、模态多样性等方面的挑战。
2025-06-13 17:23:58
688
原创 AI代理框架对比表
最近群里小伙伴经常会聊到有哪些Agent框架,下面整理一些表格,仅供大家参考,也欢迎大家留言区补充!评分来源:https://aiagentsdirectory.com/
2025-06-12 09:07:05
381
原创 Qwen3-Embedding技术报告解读
综上所述,Qwen3 Embedding 的工作不仅吸取了前人的经验,更在数据生成、训练策略和模型融合等方面进行了创新,显著推动了文本嵌入和重排序领域的发展。总而言之,Qwen3 Embedding 系列模型代表了基于基础模型在文本嵌入和重排序领域的重要进步,为自然语言处理和信息检索应用提供了强大而灵活的解决方案。该论文在引言和相关章节中提及了文本嵌入和重排序领域的多个重要研究方向和模型。:不仅提供了嵌入模型,还提供了重排序模型,并公开了不同尺寸的模型,促进了社区的研究和应用。
2025-06-10 14:59:35
793
原创 Gemini开源项目DeepResearch:基于LangGraph的智能研究代理技术原理与实现
在人工智能快速发展的今天,如何构建一个能够进行深度研究、自主学习和迭代优化的AI系统成为了技术前沿的重要课题。Gemini开源的DeepResearch一周收获7.9k Star,Google的开源项目Gemini DeepResearch技术通过结合LangGraph框架和Gemini大语言模型,实现了一个具备自主研究能力的智能代理系统。Gemini DeepResearch采用了基于状态图(StateGraph)的多节点协作架构,通过LangGraph框架实现了一个完整的研究工作流。
2025-06-05 21:55:07
1007
原创 仅靠大模型充当评估者救不了产品,关键在于优化流程
我们从评估一个基线(比如一个简单的提示词)开始,获得初步的基准。一些人认为,只要增加新的评估工具、指标,甚至是让大模型(LLM)充当评估者(LLM-as-judge),就能解决问题、挽救产品。EDD遵循相同的理念:在开发一个AI功能之前,我们首先通过产品评估来定义成功的标准,确保从一开始就目标明确且可衡量。通过查看检索到的文档、推理轨迹和错误的输出等数据,我们可以优先确定要修复的失败类型和要验证的假设。通过这种迭代循环,产品评估成为了推动数据飞轮的动力,不断改进我们的产品,减少缺陷,赢得用户信任。
2025-06-03 23:20:26
890
原创 突破长文本推理难题!阿里推出QwenLong-L1,32B参数就能媲美Claude,还开源了!
大家好,今天要和大家聊一个相当炸裂的新模型 —— 阿里通义智问团队刚刚发布的QwenLong-L1。这个模型有多厉害?32B参数量就能干翻OpenAI o3-mini,和Claude-3.5-Sonnet平起平坐,关键还开源的!
2025-05-27 23:18:27
1001
原创 除了稀疏稠密检索,第三层检索来了!推理信息检索让RAG真正理解你在问什么!
简单来说,推理信息检索就是需要动脑子思考才能找到相关信息的能力,而不是简单地匹配关键词或者理解语义。举个例子,假设我问:“家里给植物浇水后,盘子里的积水可以重复使用吗?对植物有害吗?盘子里的水含有溶解的矿物质这些可能包括肥料中的可溶性盐分需要找关于盐分积累和根部损伤的文档即使这些文档从来没提过"重复使用盘子里的水"这个说法这就是推理检索的厉害之处 - 它能理解问题背后的逻辑,而不只是字面意思。推理信息检索代表了搜索技术的一个重要发展方向。
2025-05-26 14:28:14
538
原创 大模型 Agent 就是文字艺术吗?
这场争论的价值不在于谁对谁错,而在于推动我们更深入地思考 AI Agent 的本质。对于初学者,从 Prompt 工程开始确实是一个好的起点,它能让你快速理解如何与 AI 交互。对于有经验的开发者,则需要跳出 Prompt 的局限,从系统工程的角度思考如何构建真正可用的智能体。技术的进步往往就是在这样的争论中螺旋上升的。无论你站在哪一边,都要承认:我们正在见证一个激动人心的技术变革时代。你觉得大模型 Agent 是文字艺术吗?欢迎在评论区分享你的观点。
2025-05-23 23:47:01
820
原创 RAG 挑战赛冠军方案解析:从数据解析到多路由器检索的工程实践,推荐阅读!
比赛的任务是基于公司年度报告构建一个问答系统。我们会收到来自随机挑选公司的 100 份年度报告,并需要在 2.5 小时内解析这些报告并构建一个数据库。这些报告是 PDF 格式,每份最长可达 1000 页。然后,系统会生成 100 个随机问题(基于预设模板),我们的系统必须尽可能快速地回答这些问题。是/否;公司名称(某些情况下是多个公司名称);领导职位头衔、推出的产品名称;数值指标:营收、商店数量等。
2025-05-21 22:30:54
886
原创 Interrupt 2025 大会回顾:关于LangChain 的 AI Agent会议内容总结
Interrupt 2025 大会已圆满落下帷幕!今年,来自全球各地的 800 多位人士齐聚旧金山,参加了 LangChain 首次举办的行业盛会,共同聆听各团队分享构建 AI Agent 的经验故事——会议的精彩和余温至今仍令人振奋!思科、优步、Replit、领英、贝莱德、摩根大通、Harvey 等众多公司都分享了他们在架构、评估 (evals)、可观测性 (observability) 以及 Prompting(提示设计)策略方面的宝贵经验,涵盖了遇到的挑战和取得的成功。
2025-05-19 23:21:39
1017
原创 xAI 把 Grok 的系统提示词全部公开了,我们看看DeepResearch的系统提示词怎么设计的?
xAI公司决定将Grok的系统提示词(System Prompt)公开发布在GitHub上,这一举措源于Grok在X平台上的自动回复机器人系统提示词被篡改,导致机器人对敏感话题做出了违反规则的回复。公开的系统提示词包括对话和深度研究等模块,旨在提高透明度和用户信任。Grok 3的深度研究提示词设计强调身份定义、回答框架、语言表达、引用管理、特殊情况处理、定制化扩展和质量保证机制。通过公开这些提示词,xAI希望用户能更好地理解Grok的工作原理,并确保其回答的准确性和合规性。
2025-05-17 23:37:52
617
原创 LongRefiner:解决长文档检索增强生成的新思路
LongRefiner为长文档的RAG系统提供了一种高效的解决方案。通过理解查询类型、结构化文档以及自适应精炼机制,它成功地在保持高性能的同时大幅降低了计算成本。这一研究为未来大语言模型处理长文档问题提供了新的思路。对于需要处理大量长文档的应用场景,如智能客服、文档检索系统、知识库问答等,LongRefiner无疑是一个值得关注的技术。
2025-05-16 23:28:51
541
原创 测试内容-A Comprehensive Survey on Retrieval-Augmented Large Language Models: Architectures, Application
Retrieval-Augmented Generation (RAG) has emerged as a transformative paradigm in natural language processing (NLP), addressing critical limitations of Large Language Models (LLMs) such as hallucination, outdated knowledge, and non-transparent reasoning pro
2025-05-15 00:23:17
605
原创 Qwen3如何强化推理能力?
系统性胜于单点突破:推理能力提升需要从预训练到微调的全流程设计数据质量胜于数量:严格的筛选和针对性训练比简单堆叠数据更有效框架先行,能力跟进:先构建基础推理模式,再针对性强化用户控制的平衡:思考/非思考模式融合为用户提供了控制推理深度的能力全面能力不可偏废:即使专注推理能力,也需要通过通用强化学习保持整体平衡Qwen3的推理能力提升不只是技术细节的累积,更体现了对大模型能力培养的系统性思考。这种"六步进阶法"或许能为更多大模型的推理能力提升提供有益参考。
2025-05-14 16:48:38
675
原创 如何微调推理大模型?以Qwen3/DeepSeek-R1为例
首先先简单介绍下两个系列的模型:DeepSeek-R1是由深度求索公司推出的首款推理模型,该模型在数学、代码和推理任务上的表现优异。深度求索不仅开源了DeepSeek-R1模型,还发布了从DeepSeek-R1基于Llama和Qwen蒸馏而来的六个密集模型,在各项基准测试中均表现出色。本文以蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例,为您介绍如何微调该系列模型。Qwen3是阿里云通义千问团队于2025年4月29日发布的最新大型语言模型系列,包含2个MoE模型和6个Dense模型。
2025-05-13 13:52:52
912
原创 聊一聊Qwen3思考模式实现以及背后原理探讨
混合推理模型已经有不少了,例如 Claude 3.7 Sonnet 和 Gemini 2.5 Flash, Qwen3 应该是开源且效果好的典例。未来这可能也是一个趋势,不需要特意区分普通模型和思考模型,而是同一个模型按需使用。
2025-05-07 22:48:15
1433
原创 10 种最新的思维链(Chain-of-Thought, CoT)增强方法
提出一种自适应混合推理模型 AdaR1,结合长链推理(Long-CoT)与短链推理(Short-CoT),并通过双层优化策略自动选择更有效的推理路径。针对非主流语言任务,该方法将语音翻译与推理链整合,采用半隐式CoT机制压缩中间步骤,有效提升非核心语言的响应准确率(最高可达45%)。SCoT 通过轻量模型并行预测多个推理路径,筛选后再由主模型修正,大幅降低延迟(可达48%–66%),提升推理效率。该方法将推理过程划分为多个可编辑模块,用户可以逐步查看、修改并重新运行推理,适配不同用户的认知风格和目标。
2025-05-05 23:56:52
530
原创 生产级RAG系统一些经验总结
可能需要修剪或总结它们。一种常见方法是先检索,然后运行较小的语言模型或启发式算法,将每个检索到的文档总结为一段话,然后将这些摘要输入最终的语言模型。这有时被称为上下文压缩或自适应上下文。LlamaIndex等工具可以自动执行第二阶段,使用语言模型在最终答案之前将初始检索集压缩成更短的形式。仅在绝对需要时使用此方法,因为任何摘要都是额外的生成步骤,可能会引入自己的错误。随着2025年16k+标记模型的出现,如果适合,许多RAG系统尝试只提供原始文本,因为这保留了最大的细节。
2025-05-01 22:59:55
1390
原创 告别碎片化!两大先进分块技术如何提升RAG的语义连贯性?
研究领域:检索增强生成(Retrieval-Augmented Generation, RAG)系统,结合自然语言处理(NLP)与信息检索技术。重要性RAG通过动态整合外部知识,解决了传统大语言模型(LLMs)依赖静态预训练数据的局限性。在开放域问答、实时信息生成等场景中,RAG能显著提升生成内容的准确性和信息完整性。对知识密集型任务(如医疗问答、法律分析)至关重要,需高效管理大规模外部文档。
2025-04-29 23:11:55
523
原创 Qwen3 系列的后训练技术
阿里今日推出新一代开源大模型Qwen3系列,在代码、数学、通用能力等基准测试中达到顶级模型水平(如DeepSeek-R1、o1、Grok-3等)。
2025-04-29 13:39:07
507
原创 DeepWiki:强烈建议每个程序员都用上,Github源码阅读神器!
TrustRAG的DeepWiki地址:https://deepwiki.com/gomate-community/TrustRAG。TrustRAG的Github地址:https://github.com/gomate-community/TrustRAG。DeepWiki地址:https://deepwiki.com/感觉写了一份非常高质量的项目文档。
2025-04-27 23:06:26
681
原创 txtai:全能AI框架
tetxtai是一个用于语义搜索、大型语言模型编排和语言模型工作流的全能AI框架。txtai 的关键组件是一个嵌入数据库,它结合了向量索引(稀疏和密集)、图网络和关系数据库。这个基础使得向量搜索成为可能,或者作为大型语言模型(LLM)应用程序的强大知识源。构建自主代理、检索增强生成(RAG)流程、多模型工作流等更多功能。🔎 带有SQL、对象存储、主题建模、图分析和多模态索引的向量搜索📄 为文本、文档、音频、图像和视频创建嵌入。
2025-04-25 23:28:59
825
原创 RAG5个常见错误
你的查询可能只是一个句子,但你的文档存储包含整页的文章?但是,如果你和你的朋友用"苹果"作为暗号,嵌入模型无法知道这一点。因此,我们使用专门的大型语言模型(LLM)作为重排器,对获取的上下文进行重新排序,并进一步过滤,只找出最相关的分块。对于客户聊天机器人,你可能需要授予RAG访问部分客户数据库的权限,这可能是一个关系型数据库。如果你将教科书分解成更小的部分,可能每一部分只讨论一个主题,那么你只需获取与问题相关的信息。对于通用应用,你可以使用向量存储,但当向量存储中没有可用信息时,你可以搜索互联网。
2025-04-25 23:15:53
847
原创 你敢信!LoRA也能训练出强大的推理模型——Tina让小模型“智商爆表“
Tina: 低成本高效的推理能力小型语言模型在大模型时代,人们常认为只有参数量庞大的语言模型才能具备强大的推理能力。然而,一项名为Tina(Tiny Reasoning Models via LoRA)的研究颠覆了这一观念:通过巧妙运用LoRA技术,研究团队用不到10美元的训练成本,让一个仅有1.5B参数的小模型在推理能力上媲美甚至超越了同类全参数训练的最先进模型!这一惊人成果不禁让人发问:推理能力的提升真的需要消耗大量计算资源吗?
2025-04-24 11:24:20
858
原创 PageIndex:构建无需切块向量化的 Agentic RAG
你是否对长篇专业文档的向量数据库检索准确性感到失望?传统的基于向量的RAG系统依赖于语义相似性而非真正的相关性。但在检索中,我们真正需要的是——这需要。当处理需要领域专业知识和多步推理的专业文档时,相似度搜索常常不尽人意。提供了更好的选择:让大语言模型能够思考和推理,找到最相关的文档部分。受AlphaGo启发,我们提出使用树搜索来执行结构化文档检索。是一个文档索引系统,它从长文档构建搜索树结构,为基于推理的RAG做好准备。由开发。
2025-04-22 18:00:09
1097
原创 检索增强生成(RAG)的最新发展:一文汇总11种新型RAG算法!
RAG技术通过将外部知识融入大型语言模型(LLM)的生成过程,极大地提高了AI系统的事实准确性和可靠性。如今,RAG正向更具智能性和自主性的方向发展,能够处理像超图这样的复杂结构,并适应各种专业领域的需求。这11种新型RAG技术代表了当前研究的前沿,它们不仅提高了AI系统的事实准确性,还扩展了这些系统处理复杂任务的能力范围。随着技术的不断进步,我们可以期待RAG系统在准确性、效率和适应性方面取得更大的突破,为人工智能的发展开辟新的可能性。本文将介绍11种最新的RAG类型,展示这一技术领域的创新前沿。
2025-04-21 22:42:23
597
原创 强化学习框架verl源码学习-快速上手之如何跑通PPO算法
GSM8K(Grade School Math 8K)是一个包含8,500个高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基础数学问题解答任务。
2025-04-21 17:04:19
1318
原创 RAG 与 MCP 如何以不同方式解决大模型的局限性
Claude和GPT-4o等大型语言模型 (LLM) 功能强大,但也面临两个主要限制:它们包含的知识是(更具体地说,是在训练时点固定的),并且决定它们一次可以处理多少信息的是有限的。(Retrieval-AugmentedGeneration, RAG) 和(Model Context Protocol, MCP) 是两种可以解决这些限制的方法。在本文中,我们将简短概述这两种方法的工作原理,以及区分它们的一些差异。
2025-04-20 18:57:13
792
原创 实战教程来了!从零开始打造MCP+Ollama集成
模型上下文协议MCP与Ollama的整合实现指南在过去一两个个月里,模型上下文协议(Model Context Protocol,MCP)频繁出现在各种技术微信交流群中。我们已经看到了许多很酷的集成案例,大家似乎相信这个标准会长期存在,因为它为大模型与工具或软件的集成设立了规范。前面一篇文章给大家分享了MCP一些基础概念,但是读完之后还是模棱两可,所以决定尝试将Ollama中的小型语言模型与MCP服务器连接起来,体验一下这个新标准。今天,向大家展示如何实现Ollama与MCP服务器的集成。
2025-04-19 23:35:39
867
原创 EasyDoc文档解析API,实测体验分享
基于语义智能识别内容块,精准提取完整知识单元,为AI应用提供高质量的语料,提升模型的理解能力。EasyDoc优点的话相比开源工具,一个做的比较好的就是可以支持层次结构分析,之前试了一些工具基本上只能识别出一级标题,其次对图表内容基于VL去做了识别解析,可能其他工具也有,但是单独部署一个多模态模型成本还是比价高的,这个相对方便一些。其次就是在后台工作空间我们可以实时看到解析精度,对于低代码用户很方便。
2025-04-18 01:45:29
1193
1
原创 一文详解模型上下文协议MCP
它提供了一套通用规则,允许任何客户端与任何服务器通信,而无需考虑组件的构建者,从而为多样化和可互操作的 AI 生态系统奠定基础。在另一种情况下,作为客户端开发者,你必须根据自己的需求定制服务器,其他人也无法为你的平台构建应用。是的,但是协议确保开发者以统一的方式定义和调用工具,从而更容易开发客户端(宿主应用)和服务器(集成)。MCP 的核心是使用 JSON-RPC 2.0 作为其消息传递格式,为客户端和服务器之间的通信提供了一种标准化的方式。作为一个相对较新的协议,MCP 的生态系统仍在发展中。
2025-04-18 00:33:38
1194
原创 谷歌的A2A到底是什么东西?
在当今快节奏的世界中,许多企业都在使用 AI Agent(人工智能代理)来自动处理任务。A2A 协议由 Google Cloud 牵头制定,是一个开放标准,旨在为 Agent 之间的协作提供通用语言,从而提高生产力并降低集成成本。Google 的这项举措确立了一个标准的 AI Agent 通信协议,并展示了如何让 Agent AI 变得更加实用。在本文中,我们将深入探讨 A2A 协议,了解它的作用、工作原理等等。
2025-04-17 04:00:30
667
原创 RAG 真的已死?为什么大上下文窗口还不够(至少目前如此)
OpenAI 最近发布的 GPT-4.1 震动了 AI 社区:惊人的 100 万 token 上下文窗口、精准度大幅提升,而 Gemini 2.5 在研究模式下甚至宣称支持高达 1000 万 token。作为一家 RAG 即服务创业公司的创始人,我的收件箱立刻被各种宣称 RAG 已死的消息塞满,建议我们在为时已晚之前赶紧转型。但 RAG 真的已经死亡了吗?以下是为什么我们仍然坚定看好 RAG,尽管新型大上下文模型令人印象深刻。
2025-04-16 23:37:52
767
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人