- 博客(107)
- 收藏
- 关注
原创 使用LangGraph构建自主RAG5
代表了传统检索增强生成(RAG)的演进——增加了一层推理和决策能力,使检索工作流程更具适应性和上下文感知能力。即使使用轻量级工具和小数据集,也有可能设计出一个系统,该系统能够智能地路由查询、验证自身结果,并生成有依据、可审计的答案——这是迈向可靠AI的关键一步。本文是对用于医学内容的检索增强生成(RAG)和智能体RAG的一次以实验为重点的实用探索。在这里,RAG代理首先认为问题来自问答数据集,但随后确定检索到的文本块不相关,然后它会调用网络搜索API。请参考完整的端到端笔记本。
2025-11-21 10:30:12
310
原创 使用LangGraph构建自主RAG4
构建一个简短的决策提示,并要求大语言模型返回三个标签之一:`Retrieve_QnA`、`Retrieve_Device`或`Web_Search`。如果为`否`,则回退到`网络搜索`并重新运行相关性检查;:对 `medical_q_n_a` 集合执行相似性查询,并将排名靠前的文档合并为一个上下文字符串。:创建一个简单的RAG提示,该提示注入检索到的上下文和用户问题,并带有长度限制。:询问大语言模型(LLM)检索到的上下文是否相关(答案应为`是`或`否`)。是的,系统彻底失败了。
2025-11-20 11:02:21
322
原创 使用LangGraph构建自主RAG(3)
我选择这个模型是因为我的实验规模很小且复杂度较低。在现实场景中,你可能需要使用更高级的模型(gpt-5-mini / gpt-5)。相对论认为,物理定律适用于所有观察者,不存在优先参考系,且没有任何物体的运动速度能超过光速。时间和空间会随运动和引力而弯曲,从根本上使质量和能量等价。我们使用serperAPI进行网络搜索(谷歌搜索)。让我们开始实施RAG。首先,我们将使用第一个来源(医疗问答)构建一个传统RAG,然后再转向智能体RAG。我们将使用Open AI API的gpt-5-nano模型进行本次实验。
2025-11-19 10:05:57
143
原创 使用LangGraph构建自主RAG2
我们创建一个名为“medical_device_manual”的新集合,然后向其中添加数据。我们将创建一个新的集合“medical_q_n_a”,并向其中添加数据。我们将创建两个集合,一个用于设备手册数据集,一个用于问答数据集。可以把集合想象成数据库中的表。对于每个源,我们将创建一个表。我们使用chromadb库创建ChromDB客户端。(如果您刚接触ChromaDB,请参考我的另一篇文章。,该文章介绍了ChromaDB的基础知识和实现方法)
2025-11-18 11:02:59
119
原创 使用LangGraph构建自主RAG(1)
其中一个轻量级路由代理在多个检索源(问答数据集、设备手册或网络搜索)中进行选择,检查检索到的上下文的相关性,然后才使用大语言模型生成答案。在构建RAG(检索增强生成)系统时,用户不可避免地会提出“超出大纲”的问题,即这些问题不在系统的知识库覆盖范围内。我们如何设计一个检索增强生成系统,使其能够动态选择最合适的知识源,验证检索到的信息,并在医疗保健和医疗设备等高风险领域中生成有依据、具备上下文感知能力的响应?传统检索增强生成(RAG)与智能体检索增强生成(RAG)对比(图片由作者提供)
2025-11-17 11:26:51
669
原创 A2A + MCP + LangChain = 强大的多智能体聊天机器人
结合谷歌的代理到代理协议(A2A)、模型上下文协议(MCP)和LangChain,构建一个能够进行实时股票分析和新闻聚合的自主协作聊天机器人。你已经构建了一个完全集成的多智能体聊天机器人,它利用A2A进行协作,利用MCP进行工具访问,并利用LangChain进行编排。这种架构是自主AI系统的蓝图,这些系统能够思考、适应并协同工作——不再是简单的脚本,而是协作的数字团队。通过将A2A的协作层与MCP的工具访问层相结合,您可以从硬编码脚本过渡到编排多个AI组件的动态、自主系统。
2025-11-14 10:50:35
810
原创 亚马逊再次证明AI并非答案
而现在,就在事件发生整整一周后,亚马逊宣布将解雇3万名员工,其中包括许多AWS的员工,并用AI取而代之。当我说这是一个灾难性的错误时,我指的不仅仅是对亚马逊而言,而是对所有人来说都是如此。很明显,AWS正在用AI取代关键岗位的员工,而就在上周一,出现了一个它根本无法解决的错误,但由于原本能够真正解决问题的员工团队已被大幅削减至几乎没有,修复这个问题所花费的时间比应有的时间成倍增加。发现,这种不可靠性(或幻觉的存在)是驱动AWS试图利用的各类工具的大语言模型(LLM)AI模型所固有的,而且没有解决办法。
2025-11-13 10:13:18
543
原创 在工作中正确使用AI的方法
他们将任务标记为“绿灯区”(如果员工希望将其自动化且AI能够胜任)、“红灯区”(如果AI可以完成这项工作,但人们更愿意自己做),以及“黄灯区”(技术上称为“研发机会区”,但我称其为“黄灯区”,因为这个比喻值得延伸)(如果人们希望将任务自动化,但AI尚未达到相应水平)。在许多方面,这是一种解脱。研究人员掌握了这些领域以及员工希望如何使用AI的信息后,便着手分析新兴公司如今推向市场的AI驱动工具,他们使用的是来自著名的硅谷科技加速器Y Combinator的数据集。斯坦福大学的研究表明,这可能是错误的做法。
2025-11-12 09:51:42
729
原创 Claude技能手册:Anthropic的新上下文引擎是否超越MCP?
我在本地运行了它,没错,它是一个包含行、总计甚至格式的真正的电子表格。每本笔记本都会引导你完成特定的工作流程——从创建Excel仪表盘到生成精美的PDF报告。如果你重新运行一个单元格,它会覆盖文件——这没问题,只是需要注意一下。你不需要一次性加载所有这些内容——技能仅在需要时加载。下次你用该技能调用Claude时,它已经知道该怎么做了——无需再次重复所有指令。这不仅仅是一个提高生产力的技巧——这是AI逐步融入实际业务工作流程的方式。——如果你喜欢仪表盘、投资组合分析或任何数据密集型的东西,这个会很有趣。
2025-11-11 11:56:41
918
原创 从法律文档到知识图谱
这里我们定义了两个 Pydantic 模型:Location 用于捕捉结构化的地址信息,包含可选的国家、州和地址字段;Party 用于表示合同参与方,包含必填的名称和可选的位置详情。字段描述通过告知 LLM 每个字段具体需要查找哪些信息,来辅助提取过程。"""包含结构化地址组件的位置信息。"""country: Optional[str] = Field(None, description="国家")
2025-11-10 10:10:14
2680
原创 构建一个自主深度思考的RAG管道以解决复杂查询--分析最终的高质量答案(8)
我们收集所有必要的工件,用于我们单一的、困难的查询:问题、两个不同的答案、两组不同的上下文,以及我们理想的地面实况。让我们将其打印出来,看看它是否成功地将两个来源的信息综合成一个完整的、有分析性的回答,并附有参考文献。这个数据集将包含我们的挑战查询、由我们的基线和高级管道生成的答案、它们各自使用的上下文,以及我们自己编写的作为理想响应的“地面实况”答案。在这个模型中,每个RAG状态都是一个“状态”,每个动作(继续、修正、完成)都会导致一个新的状态,并伴随着一定的奖励(例如,找到正确答案)
2025-11-07 10:23:06
833
原创 构建一个自主深度思考的RAG管道以解决复杂查询--深度思考RAG机器的布线(7)
我们将使用完全相同的多跳、多源挑战查询来调用我们编译的deep_thinking_rag_graph。然后,我们可以使用内置的LangGraph实用工具来生成我们图形的图表。它将我们的代码转换为直观的流程图,清晰地展示了智能体可能的推理路径。我们将使用LangGraph的状态图来定义我们的智能体的完整认知架构。现在唯一要做的就是将这个蓝图编译成可运行的应用程序,并将其可视化,看看我们构建了什么。.compile()方法会获取我们对节点和边的抽象定义,并将其转化为一个具体的、可执行的应用程序。
2025-11-06 10:41:37
771
原创 构建一个自主深度思考的RAG管道以解决复杂查询--通过网络搜索扩充知识(6)
然后,它使用专门的提示来指导我们强大的推理大语言模型将这些信息综合成一个全面的、多段落的答案,其中包括引用,从而成功地完成我们的研究过程。要解决我们的查询难题,我们的智能体需要查找有关AMD AI芯片战略的最新新闻(文件提交后,2024年发布的)。让我们从检索节点开始,该节点用于搜索我们内部的10-K文档。它唯一的任务是调用我们的planner_agent,并填充我们plan字段中的RAGState。它将智能体的当前内存(RAGState)作为输入,执行其任务,然后返回一个包含对该内存的任何更新的字典。
2025-11-05 15:20:41
639
原创 构建一个自主深度思考的RAG管道以解决复杂查询--创建多阶段检索漏斗(5)
所以,基本上,我们要构建一个函数,该函数接收我们检索到的10篇文档,并使用交叉编码器模型为每篇文档赋予一个精确的相关性得分。我们将使用sentence-transformers库中的一个小型但非常有效的模型,这在我们的配置中已经指定。此函数的输出将是一个简短、简洁且高度相关的文档列表,这是我们下游代理的理想上下文。这个高级向量存储现在包含与我们的基线相同的文本,但每个嵌入的文本块都标记了其章节标题,从而使我们能够执行过滤搜索。这个多阶段的过程确保了我们的智能体所处理的证据具有尽可能高的质量。
2025-11-04 10:44:39
991
原创 构建一个自主深度思考的RAG管道以解决复杂查询--战略规划与查询制定(4)
这是我们的系统从简单的数据获取器跃升为真正的推理引擎的地方。我们的代理不会天真地将用户的复杂查询视为单一搜索,而是会先暂停、思考,然后构建一个详细的、循序渐进的研究策略。我们为它提供了三条信息来开展工作:简单的子问题、我们的规划器已经确定的关键词,以及来自之前任何研究步骤的过往上下文。我们将构建一个由大语言模型驱动的智能体,其唯一任务是将用户的查询分解为结构化的计划对象,决定每一步使用何种工具。这一简单的改变将我们的检索器从一种粗糙的工具转变为一种精细的手术刀,它是构建真正生产级RAG系统的关键原则。
2025-11-03 09:40:01
789
原创 构建一个自主深度思考的RAG管道以解决复杂查询--定义中央代理系统的RAG状态(3)
OurStep类,使用 Pydantic 的BaseModel,作为我们的规划器代理的严格契约。然后,智能体将能够查看这个不断增长的摘要列表,以了解它所知道的内容,并决定是否有足够的信息来完成其任务。我们希望定义我们的智能体计划的原子单元。每个步骤不仅必须包含一个待回答的问题,还必须包含其背后的推理,以及至关重要的,智能体应该使用的特定工具。为了构建它,我们将定义一系列结构化数据类,从最基本的构建块开始:研究计划中的单个步骤。这种共享的、持久的状态正是我们简单的RAG链所缺乏的复杂迭代推理的实现方式。
2025-10-31 10:22:04
354
原创 构建一个自主深度思考的RAG管道以解决复杂查询--构建一个注定失败的浅层RAG管道(2)
既然我们已经了解了基本RAG管道存在的问题,现在就可以开始实施我们的深度思考方法论,看看它在解决复杂查询方面的效果如何。,一个流行的内存向量存储库,以及OpenAI的text-embedding-3-small模型,如我们的配置中所定义。我们将导入已清理的10-K文件,并将其分割成小的、固定大小的块,这是一种常见但语义上较为简单的方法。然后,我们将对这些文本块进行嵌入处理,并将其索引到ChromaDB向量存储中,以实现基本的语义搜索。这是一个线性的、一次性的过程,却试图解决一个循环的、多步骤的问题。
2025-10-29 10:27:41
377
原创 构建一个自主深度思考的RAG管道以解决复杂查询深--深度思考RAG管道(1)
在我们开始编写深度检索增强生成(Deep RAG)管道的代码之前,我们需要先打好坚实的基础,因为生产级的AI系统不仅关乎最终的算法,还关乎我们在设置过程中所做的深思熟虑的选择。当我们开始开发一个管道并对其进行反复试验时,以普通字典格式定义我们的配置会更好,因为在后续管道变得复杂时,我们可以简单地参考这个字典来更改配置,并查看其对整体性能的影响。为了测试我们实现的管道并将其与基本的检索增强生成(RAG)进行比较,我们需要使用一个非常复杂的查询,该查询要涵盖我们正在处理的文档的不同方面。
2025-10-28 14:25:07
941
原创 70%的RAG性能与分块有关
在这篇文章中,我将介绍RAG工作流程,突出分块在其中的作用,然后深入探讨固定、递归、语义、基于结构和后期分块技术,包括定义、权衡和伪代码,以便你能采用适合自己用例的方法。如果分割后的块仍然太大(超过限制),则递归地进一步分割(例如按句子),直到所有块都在限制范围内。高风险或对精度敏感的检索增强生成(RAG)应用(法律、医疗、监管领域),在这些应用中,对代词或指代的误解可能代价高昂。它是您的RAG项目的良好起点,在文档结构未知时是不错的基线,或者适用于统一/枯燥的文本(日志、纯文本)。
2025-10-23 16:34:31
581
原创 为何你的RAG系统无法处理复杂问题(三)
更妙的是,如果模型在适应用户反馈的同时能够解释其纠正步骤,那么它们不仅会变得更智能,而且会更透明。与仅依赖一般相似度的传统RAG不同,RAS采用主题范围的方法,显著缩小了搜索空间。需求分析系统(RAS)依赖于将杂乱无章、非结构化的文本转化为清晰、结构化的知识。它会生成一个有针对性的子查询,这是一个较小、聚焦的问题,旨在填补知识中的特定空白。这将需要新的索引和处理高容量请求的方法,同时又不降低速度。这些挑战大多集中在三个相互关联的领域:我们获取信息的速度有多快,信息的质量如何,以及所有信息的整合程度如何。
2025-10-22 14:09:12
563
原创 为何你的RAG系统无法处理复杂问题(二)
它首先将术语转换为嵌入向量以捕捉其含义,然后使用一种特殊的聚类方法,逐步将宽泛的主题细分为更具体的主题,同时确保通用术语位于较高层级,具体术语位于较低层级。为了在较小主题的术语之间做出更精细的区分,TaxoGen仅使用与该主题相关的文档来学习新的嵌入向量,从而能够区分细微差异。这种方法完全自动化,比以前的方法创建的分类法更清晰、更有用,有助于用户和系统更好地浏览和理解大型文本数据集。任务引导的分类法构建。在这一步中,我们识别现实世界中的实体以及它们之间的关系,这些对于知识图谱的构建至关重要。
2025-10-21 09:51:05
772
原创 为何你的RAG系统无法处理复杂问题(一)
大语言模型(LLM)使用这个结构化的知识图谱来回答查询,如果有必要,它会生成一个聚焦的子查询,以启动一个新的、更精准的检索循环。其他使用的技术包括GraphRAG,它将复杂的结构化知识浓缩成文本摘要,使大语言模型(LLM)能够处理需要全面理解语料库的复杂查询。ToG(图上思考)使大语言模型(LLMs)能够通过引导式、提示驱动的探索直接与知识图谱(KGs)进行推理,逐步构建明确的推理链。GoT(思维图)将大语言模型的推理过程构建为图结构,而非简单的线性链,从而支持多路径探索和循环思维等复杂的思维模式。
2025-10-20 10:44:50
986
原创 检索增强生成已死:企业为何弃用向量数据库而选择智能体架构
检索增强生成(RAG)解决了一个明显的问题:大语言模型(LLMs)会产生幻觉。通过接入由向量搜索驱动的检索层,企业可以将答案建立在自己的数据之上。随着智能体架构的兴起——结合推理、编排和选择性检索——向量数据库将逐渐退居幕后,就像如今的TCP/IP一样。企业正在超越检索增强生成(RAG)和向量数据库,采用能够动态适应、推理和编排知识的。仍然至关重要,并且是更大架构中的组成部分。它在演示中能阻止幻觉,但在企业级规模下,它就散架了。报告称,从以向量DB为主的基础设施转向轻量级编排器时,ROI更高。
2025-10-17 10:28:53
876
原创 OpenAI的AgentKit:构建和部署AI智能体的更简单方法
您可以直观地设计您的智能体,将其集成到您的应用程序中,并对其进行微调——所有这些都在同一个生态系统中完成。将此代码片段插入到您页面的部分或您加载脚本的任何位置,浏览器将为您获取并运行 ChatKit。每个人要么正在构建一个智能体,要么在谈论一个智能体,要么试图创建一个真正有效的智能体。,这是一个拖放式编辑器,能清晰展示你的智能体是如何思考的。——创建、测试和部署你自己的AI智能体所需的一切,都集成在一个平台上。因此,当您的代理在野外运行时,它可以保持安全可靠,无需持续的人工监管。
2025-10-16 10:35:45
725
原创 双子座3 Pro太疯狂了:谷歌的AI重新定义了可能性
2025年末,随着OpenAI的GPT-5、xAI的Grok 4和谷歌自家早期的Gemini模型之间的AI竞争愈演愈烈,“令人印象深刻”的标准不断提高。和所有的革命一样,这里有一个学习曲线,也有一点不安。Gemini 3 Pro 对这种情况不屑一顾——处理数百万个词的输入意味着你可以在一个提示词中输入整本书、大量法律简报或庞大的代码库,仍然能得到上下文准确无误的答案。企业:安全的、由 API 驱动的推理(“数字免疫系统”)使幻觉现象罕见,让企业融入自身的沟通风格或价值观,并自动执行复杂的工作流程。
2025-10-15 11:57:22
907
原创 能动框架战场:如何摆脱供应商锁定并在下次AI战争中生存
仅仅是一个领先的代理框架中的一次 API 变更,我们精心构建的企业系统就在生产环境中崩溃了。该书将当今工具所缺乏的架构、契约和设计法则进行了编纂,展示了如何构建不仅功能完备,而且具备容错性、面向未来且易于审计的系统。我和我的团队是吃了苦头才学到这一点的,此前我们目睹太多试点项目停滞不前,原因是供应商选择不知不觉地固化成了架构依赖。每一个周期,你都能重新获得自由:更换供应商的自由、安全扩展的自由、无中断发展的自由。以下是当今主要的智能体框架和平台的情况:它们的优化目标,以及企业将其投入生产时它们的不足之处。
2025-10-14 13:50:24
876
原创 能动AI:构建长期记忆
虽然更复杂,但自我编辑系统可以更新事实,并在必要时使其失效。如果你继续深入思考这个问题,你可能还希望大语言模型(LLM)能够关联不同的事实(进行多跳推理)并识别模式。所以你可以向它提问,比如“我今年参加了多少场音乐会?”或“你认为基于此我的音乐品味如何?”这些问题可能会引导你尝试知识图谱。
2025-10-13 15:00:49
654
原创 麻省理工学院称95%的AI飞行员失败。麦肯锡解释原因。能动工程展示如何解决问题。
我的新书涵盖24章和19个实践领域,提供了一份完整的蓝图——包括能动堆栈、成熟度阶梯、设计模式和反模式、实地经验教训、最佳实践、案例研究和代码示例。这本书为你提供成熟度阶梯、治理蓝图和经过实践检验的经验教训,帮助你的企业从脆弱的试点项目迈向生产级别的自主运营。本书的24个章节和19个实践领域均直接针对麻省理工学院(MIT)所确定的障碍,同时融入了麦肯锡所概述的六项原则。别再疲于应对脆弱的提示和一次性脚本了。指出了同样的差距:不可信的主体、在实际使用中崩溃的架构、姗姗来迟的治理以及站不住脚的经济模式。
2025-09-30 10:17:58
725
原创 2025年助力氛围编码的前8名MCP服务器
将github.com替换为gitmcp.io,在你的仓库链接中,这样你的AI就可以实时查看你的代码和文档了。它能将你的AI与数据库相连,这样你就无需使用仪表盘,直接告诉它要做什么,比如创建表格或设置安全措施。它将AI连接到你的仓库、数据库或其他任何你正在使用的东西,这样你就不必逐字逐句地给它提供上下文了。稍后,询问“再次使用那个暗模式代码”,它就会为你的新项目进行调整。21世纪开发魔法让你用通俗易懂的语言描述UI,它就能输出简洁、现代的代码。下次你需要类似的东西时,你的AI就会调用它。
2025-09-29 09:10:26
615
原创 这不是炒作——Claude Code证明未来已然到来
现在已经到了这样一个阶段,我可以放心地在这里凉快一下,给出我的提示,然后去跑个步再回来,相信它会完成我想要的任务。正式宣布,我现在已经到了这个阶段:我可以向Claude Code发出指令,然后放心地让它自行运行,之后我再回来查看结果。对我来说,那个时刻就是我只提了一个请求,它就准确理解了我的需求。我的博客是AI进展的一个缩影,我现在可以说,情况已经发生了变化,这是我们跨越的一个重要里程碑。我发现输出结果呈现出这种奇怪的模式,它似乎压缩了我真正想要的内容,并且对深度的关注不够。我在意的不只是长度,还有质量。
2025-09-25 11:34:23
743
原创 6个你必须尝试的开源AI项目(智能体、检索增强生成和微调)
摘要:AI领域涌现出多个实用开源项目,简化开发流程。SimAI提供拖放式智能体构建;TransformerLab支持本地模型训练;RAGFlow专注企业级文档处理;AutoAgent实现无代码智能体创建;LLaMA-Factory简化模型微调;AnythingLLM整合多种AI功能。这些工具覆盖智能体开发、RAG、微调等场景,部分支持本地运行,适合不同层次的开发者需求。
2025-09-24 10:11:07
1157
原创 AI与数据科学就业市场:到底发生了什么?
但对于已经入职的员工来说,机会并没有消失,初级员工的晋升实际上还增加了。这种结合不仅能让你成为一个只会查询数据的人,更能让你成为一个能推动成果的人。我会一如既往地保持坦诚,实事求是(不玩虚的),最后,我会尽我所能给你提供切实可行的建议,帮助你在这个过渡时期蓬勃发展。这一次,我们看到了一场真正的颠覆,它跨越了科技领域,甚至波及更广,裁员、初级岗位减少,AI炒作随处可见。技能的发展速度超过了头衔,因为企业需要的是真正会使用这些工具的人,而不仅仅是简历上挂着名头的人。如果你想进入这个领域,你的项目就是一切。
2025-09-23 10:52:44
783
原创 检索增强生成(RAG)还不够:为何你的下一个AI项目需要结构化数据RAG
生成事实错误或无意义的信息。缺乏训练截止后最新事件或发展的相关知识。无法回答有关专有或小众数据的问题。检索增强生成(RAG)通过用外部、最新且特定领域的信息扩充大语言模型(LLM)的知识来解决这些局限性。当用户提出问题时,检索机制(通常使用嵌入和向量数据库)会在庞大的知识库(文档、文章、网页等)中搜索相关信息。然后将检索到的信息作为额外的上下文与用户的原始查询一起提供给大语言模型。大语言模型使用这个增强提示来生成更有见地、准确且与上下文相关的响应。究竟什么是结构化RAG?这是逻辑与氛围之争。
2025-09-22 11:31:17
1083
原创 创建完整的评估生命周期以构建高(四)
我们的系统必须做好适应的准备。一个真实的系统会使用专门的日志服务,但在我们的示例中,一个简单的写入 JSONL(JSON 行)文件的函数就足以完美地演示这个概念。这促使我们设计出一个更智能的V1智能体,它拥有强大的模型、用于数学验证的工具使用能力,以及一个用于上下文推理的RAG系统。现在,让我们创建一张全新的、有挑战性的收据,我们的V1代理从未接受过此类收据的训练,很可能会误解它。这证实了我们在准确性方面的改进,但也立即揭示了一个新的关键瓶颈:我们的V1代理虽然正确,但在生产环境中速度太慢。
2025-09-19 13:10:46
812
原创 创建完整的评估生命周期以构建高(三)
grade_latency和grade_cost确保我们的生产服务水平目标(SLO)得以实现,明确了我们所认为的“足够快”和“足够便宜”的标准。然后,run_v1_advanced_eval将针对这些记录执行我们完整的评分器套件,并且至关重要的是,按我们定义的数据切片汇总结果。我们需要确保我们新的、更复杂的系统不仅准确,而且高效,并且其准确性在不同类型的数据中都能保持。现在,我们需要一个更复杂的套件来评估我们的V1系统。在定义了我们先进的评估套件后,我们准备让我们的 V1 代理接受其最终、最严格的测试。
2025-09-18 10:05:28
768
原创 创建完整的评估生命周期以构建高(二)
在实际项目中,这可能是一个类似这样的平台的配置文件。在这里,我们将它们定义为Python函数,以便在本地模拟运行,这清晰地展示了核心逻辑。我们将从针对客观事实的简单、确定性评分器开始。# --- 确定性评分函数 ---"""检查预测的总金额是否与参考值匹配。"""# 对于财务数据,期望完全匹配。"""检查商户名称是否不区分大小写且去除空白后匹配。"""# 对字符串进行规范化处理,可使检查对大语言模型(LLM)的细微格式差异具有鲁棒性。返回 1.0 如果 pred == ref 否则 0.0。
2025-09-17 12:21:10
778
原创 创建完整的评估生命周期以构建高(一)
有了我们的理念和环境,现在我们可以进入任何成功的AI项目的第一步,即深入理解并量化我们试图解决的业务问题。一家公司每月要处理数千张员工费用报销单。人工审核流程缓慢、成本高且容易出现人为错误。我们的任务是构建一个AI智能体,自动执行这个工作流程,仅智能标记出需要最终人工审核的必要报销单。我们确实知道,真正的企业需要的不仅仅是准确性,一个可投入生产的系统必须从多个因素进行评估……我们必须将遗漏的不合规收据(假阴性)和错误标记的有效收据(假阳性)都降至最低。
2025-09-16 09:55:21
614
原创 从 ETL 到 ELT 再到 EAI:AI 如何重塑数据处理
(ChatGPT 生成图片)六个月前,在一次项目回顾会上,我目睹了一个数据团队的理念发生了转变。为了给 AI 聊天机器人清理客户支持数据,他们花了数周时间构建 ETL 管道——其中包含复杂的转换逻辑、固定的模式以及无数的边缘情况。随后,团队的机器学习工程师提出了一个问题:“如果我们直接将原始数据输入 LLM,让它自己判断哪些信息重要,会怎么样?那一刻,我在行业中观察到的趋势变得清晰起来:AI 不仅在消费我们的数据,更在从根本上改变我们处理数据的方式。
2025-09-15 09:43:27
972
1
原创 Google 新 LLM 仅需 0.5GB 内存即可运行——如何在本地对其进行微调
几天前,Google 悄然发布了一款小型 AI 模型,名为 Gemma 3 270M。它体型极小,甚至能在配置极低的设备上运行。当然,也不是真的能在“土豆”(指完全无法使用的设备)上运行,但它仅需约 0.5GB 内存。这……基本上相当于没占多少内存。显然,我忍不住想找个有趣的方向对它进行微调,于是选择了国际象棋这个主题。我的目标是:给它一个接近结束的国际象棋棋局,问它“缺失的走法是什么?”,看看它能否准确给出答案。全程离线进行。不需要云端 GPU,也不会产生让我心疼的信用卡账单。
2025-09-12 09:49:39
388
原创 你不需要 GraphRAG!构建一个多策略图谱思维(Multi-Strategy Graph Thinking)AI Agent
BYOKG(Bring Your Own Knowledge Graph,自定义知识图谱)”是一个旨在提升知识图谱问答(KGQA)能力的框架,它通过将多种外部知识源与大语言模型(LLMs)整合来实现这一目标。该框架利用多种图谱检索策略——包括实体链接、子图提取和Cypher查询执行,从不同的知识图谱中收集相关上下文信息。BYOKG 的核心目标是:通过将这些检索技术与 LLMs 的推理能力相结合,提升 KGQA 系统的准确性、鲁棒性和通用性,从而在不同领域和知识库中,生成更精准、更贴合上下文的答案。
2025-09-10 17:08:28
1003
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅