u013250861
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Function Calling函数描述格式现状调研报告【JSON Schema用来描述JSON数据应该具有的结构、类型、约束等;在Function Calling中用于定义函数参数的结构和验证规则】
JSON Schema是一个用于验证JSON数据结构的标准规范。它本身也是用JSON格式编写的,用来描述JSON数据应该具有的结构、类型、约束等。在Function Calling中,JSON Schema用于定义函数参数的结构和验证规则。"$defs": {},Function Calling(函数调用/工具使用)已成为大语言模型的核心功能,各大AI厂商在2025年都建立了相对成熟的标准。本报告分析了主要平台的函数描述格式现状,发现虽然底层都基于JSON Schema,但在具体实现上存在显著差异。原创 2025-08-27 18:00:10 · 173 阅读 · 0 评论 -
UI-Genie无人工标注训练数据生产方法详解
UI-Genie采用了一个自我改进的循环框架,通过Agent和Reward Model的协同进化来生成高质量的训练数据,完全避免了人工标注的需求。fill:#333;color:#333;color:#333;fill:none;自我改进循环数据生成策略轨迹生成奖励模型评估高质量轨迹筛选数据集扩充Agent模型更新奖励模型更新规则验证轨迹破坏困难负样本挖掘初始Agent模型完全无监督的数据生成:不需要任何人工标注自我改进循环:Agent和Reward Model协同进化。原创 2025-08-14 16:15:42 · 69 阅读 · 0 评论 -
从对话到自主操作——ChatGPT问世以来移动端AI Agent的演进与展望
其强大的自然语言理解、生成、推理和上下文记忆能力,彻底颠覆了人们对人机交互的认知 [13],也为移动端Agent的发展指明了新的方向。这些开源项目,特别是AppAgent和DroidRun,直接解决了移动Agent的核心技术难题——GUI的理解与操控,为开发者提供了可参考的范例和可复用的代码库。将强大的LLM驱动的Agent部署到资源受限的移动设备上,是一项巨大的技术挑战。这一趋势表明,未来的移动Agent将不再是孤立的应用,而是成为操作系统的“智能中枢”,成为连接用户、数据和服务的核心桥梁。原创 2025-08-12 13:49:42 · 137 阅读 · 0 评论 -
Agent低代码平台
Dify 提供从数据预处理到模型监控的全链路工具,支持私有化部署与 API 集成。支持通过流程图形式自由组合循环、并行、批处理等复杂逻辑,覆盖文档审核、报告生成、多代理协作等企业级场景,用户可实时干预流程执行。集成统一模型管理、RAG增强生成、模型微调(SFT)、数据集管理、安全审计、RBAC权限控制等高阶功能,支持高并发与高可用部署。自动化数据预处理(支持 PDF、Word 等格式解析)、可视化工作流编排(Flow 模块)、与 OpenAI 对齐的 API 接口,以及针对海量数据的 QA 结构优化。原创 2025-08-12 12:36:18 · 70 阅读 · 0 评论 -
Multi-Agent框架
CrewAI强调"以任务为中心"的编排理念,内置任务优先级调度、结果聚合模块,适用于自动化工作流、数据管道和科研计算等场景,助力开发者构建工业级多智能体系统。由微软推出的一个框架,支持创建和管理多个自主Agent,协同完成复杂的任务。这个框架的灵活性极高,可以根据需求定义不同类型的Agent,包括特定任务的专家、通用助手、策略制定者等。LangGraph不仅适用于各类Multi-Agent任务,还能支持几乎所有的多智能体编排应用,使其成为那些面临复杂任务、追求高度灵活性和定制化能力的开发者的首选工具。原创 2025-08-12 12:34:59 · 59 阅读 · 0 评论 -
2025年,AI Agent干货资料、论文综述都在这了
关于Agent,有很多种说法,到底什么样的系统属于AI Agent?去年,吴恩达提出了Agentic Workflow,还有类似BabyAGI的自主智能体。广义上说,这两种都算AI Agent,两者都能在未来GenAI应用场景发挥巨大作用,但两种有本质上的区别。原创 2025-08-12 12:24:50 · 97 阅读 · 0 评论 -
RAG 系统高效检索【嵌入&精排】:BGE(智源)、GTE(阿里)、E5(微软)、Jina
MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》判断哪些文本嵌入模型效果较好,通常需要一个评估指标来进行比较,《MTEB: Massive Text Embedding Benchmark(海量文本嵌入基准)》就是一个海量文本嵌入模型的评估基准。原创 2025-07-13 22:09:07 · 178 阅读 · 0 评论 -
一文读懂模型上下文协议(MCP)【MCP 的核心本质是 **接口规范协议**,其核心价值在于标准化交互方式,而非实现具体功能】【MCP 是 AI 工具的“插槽标准”(如 USB-C),而非工具本身】
在了解模型上下文协议(MCP)之前,我们先理解一个核心概念——协议。在计算机领域,协议是一组决定两个系统如何相互通信的规则。协议规范了计算机网络、互联网通信和软件系统之间的数据传输。在AI领域,不同模型、工具之间的协作同样需要这样的规则,这就是模型上下文协议(MCP)诞生的意义。模型上下文协议(Model Context Protocol,MCP)从名字就可以看出:过去,电脑需要多种硬件接口(如USB、HDMI等)连接不同设备,直到USB-C出现,凭借统一标准解决了设备互联的复杂性。MCP就像是AI世界的"原创 2025-07-12 00:12:35 · 150 阅读 · 0 评论 -
一文看懂:MCP(大模型上下文协议)【旨在统一大模型与外部数据源和工具之间的通信协议】【2024年11月底,由 Anthropic 推出】
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大模型与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。原创 2025-07-11 23:59:25 · 66 阅读 · 0 评论 -
自主智能体发展历程概述【Auto-GPT、BabyAGI、AgentGPT、OpenAgents、MetaGPT、ChatDev】【主流LLM Agent框架:LangChain、LangGraph】
大型语言模型(LLM)的出现催生了一系列自主智能体(AI Agents),它们能够根据给定目标自动规划任务、调用工具并自主执行。这被视为通往通用人工智能(AGI)的重要路径之一。自2023年初以来,从开源社区到大型科技公司纷纷探索智能体架构,推动了自主智能体技术的蓬勃发展。下面按时间顺序介绍若干代表性自主智能体模型与框架的发展历程,每个模型包括名称、发布时间、发布机构、模型结构和创新点等关键信息。原创 2025-07-02 23:55:14 · 208 阅读 · 0 评论 -
Agent工作流工具:Dify(专攻文本/知识问答)、ComfyUI(追求灵活视觉生成)、n8n(需要把 AI 任务嵌入业务自动化)
下面把三个项目拆成「定位 → 关键能力 → 技术/部署 → 许可证 & 商业模式 → 适用人群/场景」五个维度,帮助你快速抓住精髓与差异点。原创 2025-06-26 17:49:05 · 387 阅读 · 0 评论 -
MobileVLM 与 MobileAgent系列
二者结合时,MobileVLM 作为感知模块为 MobileAgent 提供结构化输入,任务完成率显著提升。MobileVLM 与 MobileAgent 系列是移动端 AI 代理领域的两种代表性技术路线,二者在。上存在显著差异与互补性。原创 2025-06-13 14:19:09 · 100 阅读 · 0 评论 -
【论文精读】MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding
的详细分析,涵盖发布时间、相关已有工作、创新点、训练数据、模型结构、训练方法和测试结果等维度,符合技术严谨性与深度要求。MobileVLM 首次在预训练阶段引入。:现有工作仅通过微调引入UI知识,缺乏。:MoE结构与多任务学习提升显著。,解决移动AI代理的核心瓶颈。:图结构编码有效建模长依赖。MobileVLM 提出。原创 2025-06-13 14:12:04 · 68 阅读 · 0 评论 -
【论文精读】Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks
加载或创建shortcuts文件。加载或创建tips文件。原创 2025-06-13 13:33:21 · 135 阅读 · 0 评论 -
【论文精读】Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent
解析输出thought/summary/action。是否启用Reflection。生成Action提示词。调用GPT-4获取决策。是否启用Memory。原创 2025-06-13 12:48:51 · 69 阅读 · 0 评论 -
【论文精读】Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
Mobile-Agent 通过。原创 2025-06-13 11:56:01 · 105 阅读 · 0 评论 -
基于 Qwen2.5-VL 的多模态检索增强生成(RAG)
今天,使用该模型,我们将对 MIG 29(一种战斗机)飞行手册进行多模态 RAG,该手册包含复杂的图形、图表等内容。我们在 RAG 速成课程的第 9 部分对 ColPali 进行了完整的架构拆解,并通过二值量化对其进行了优化。这里展示了一部分 streamlit 内容,但构建完成后,我们得到了这个清晰整洁的界面。我们已经实现了一个由 Qwen2.5-VL 驱动的 100%本地多模态 RAG。在这个例子中,它通过检索正确的页面并理解复杂的可视化,给出了正确的回答👇。原创 2025-05-18 19:27:58 · 332 阅读 · 0 评论 -
多轮带RAG的SFT数据构造挑战
只有在精心挑选、合理标注、动态迭代的前提下,多轮 RAG 模型才能有效学习到如何在复杂对话中准确检索外部知识、整合上下文信息并生成高度可靠、符合用户需求的回答,从而在实战中真正发挥其强大潜能。在组织多轮带 RAG 的数据时,建议将对话、检索和回答三部分以统一结构显式地展现出来,方便后续进行高效筛选与 Fine-tuning。这种结构不仅让数据更具可读性,还能够让模型在 Fine-tuning 时“看到”清晰的输入输出映射关系:(对话上下文 + 检索到的文档) → 回答。原创 2025-03-03 19:22:20 · 214 阅读 · 0 评论 -
大模型+检索增强(RAG、Atlas 和 REPLUG)
检索增强的优势可解释性:大模型的黑箱属性,使得研究者很难以利用大模型对模型运行机理进行分析,而检索增强模型可以直接提取其检索到的文档,从而通过分析检索器所检索出的文章,可以获得对 Atlas 工作更好的理解。原创 2023-11-10 01:10:30 · 580 阅读 · 0 评论 -
大模型应用中大部分人真正需要去关心的核心——Embedding
我们现在一说到大模型,往往说的就是ChatGPT、Llama,或者国产的ChatGLM、文心一言等等。但是,那些大模型一般只属于大厂,对于大部分人来说,我们更多的角色是大模型的使用者,或者是基于大模型来开发应用。大模型主要应用:这部分目前也是大模型最被人所知的应用,但chat功能我们已经有ChatGPT、Claude、文心一言、通义千问等一众产品可以用,对于大部分人来说,我们是消费者;原创 2023-11-09 23:41:44 · 1316 阅读 · 0 评论 -
大模型应用一:RAG
LLM这一波,催生的技术真的很多,每一个环节,要真正做好,符合企业应用,都可以让我们研究好长一段时间,并需要不断去实践,才能打磨出精品。嗯,大模型这一波,我已经感觉到变化的发生了——了解大模型和不了解大模型的人,在AI的业务上的理解上,有某些角度来看,他们的区别真的就现代人类和史前人类一样巨大。于是,RAG被越来越多提到,包括开源的ChatPDF,也是RAG的一个经典应用。RAG最初是为了解决LLM的各类问题的(后面会提到)产生的,但后面大家发现在现阶段的很多企业痛点上,使用RAG好像是更好的解决方案。原创 2023-11-09 23:09:26 · 1348 阅读 · 0 评论 -
从LangChain+LLM的本地知识库问答到LLM与知识图谱、数据库的结合
过去半年,随着ChatGPT的火爆,直接带火了整个LLM这个方向,然LLM毕竟更多是基于过去的经验数据预训练而来,没法获取最新的知识,以及各企业私有的知识为了获取最新的知识,ChatGPT plus版集成了bing搜索的功能,有的模型则会调用一个定位于 “链接各种AI模型、工具的langchain”的bing功能为了处理企业私有的知识,要么基于开源模型微调,要么也可以通过langchain作为一种外挂的内部知识库 (类似存在本地的数据库一样)原创 2023-08-27 22:36:08 · 1790 阅读 · 0 评论 -
中文Sentence Embeddings:text2vec-base-chinese VS OpenAIEmbedding
每条数据包含三列,分别表示 sentence1、sentence2 和相似等级(Label),相似等级范围为 0~5,从数据集中每个Label选择相同的条数,数据集中Label=5有97条,那其他Label=0、1、2、3、4我们也分别选择97条;从两张图比较直观能看到,text2vec-base-chinese跟Label的吻合度可以,在余弦相似性的区分度上更剩一筹。为了让点可以散开,如果Label是0就把x平均分布到0~1之间,是1就把x平均分布到1~2之间,以此类推;两个model分别做了个效果图,原创 2023-08-21 17:01:10 · 1540 阅读 · 0 评论 -
GPT-4+Knowledge Graph:自动构建中医药知识图谱
【代码】GPT-4+Knowledge Graph:自动构建中医药知识图谱。原创 2023-08-19 22:33:31 · 732 阅读 · 0 评论 -
chatGPT+Neo4j:实现基于知识图谱的精准知识问答【①利用chatGPT生成查询语句;②利用生成的查询语句查询neo4j数据库;③将查询neo4j的结果作为chatGPT的输入prompt】
prompt:这是我neo4j知识图谱结构,根据问题,写一个cypher查询语句,我希望返回的是完整的节点,而不只是节点的名字。图谱结构:(杜仲)-[杜仲_又名]-(又名);(杜仲)-[杜仲_功用]-(功用);(杜仲)-[杜仲_地域]-(地域)。问题:杜仲的又名叫什么?这个查询会匹配杜仲节点和与其关联的又名节点,然后返回这两个节点的完整信息,包括属性和关系。请确保您的数据库中已经存在这些节点和关系,然后将查询语句应用于您的Neo4j数据库。原创 2023-08-19 22:05:31 · 1174 阅读 · 0 评论 -
基于LangChain的优秀项目资源库
在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业,LangChain是从事AI应用开发的人员或多或少都会接触到的框架。LangChain是一个令人惊叹的框架,可以在极短的时间内完成LLM项目,其生态系统正在快速发展。本文主要内容是一个LangChain资源库,里面罗列了大大小小很多个基于LangChain框架的优秀项目,包括低代码、服务、代理、模板等工具类,还有像知识管理、原创 2023-07-20 00:19:24 · 867 阅读 · 0 评论
分享