- 博客(1348)
- 收藏
- 关注
原创 一文搞懂大模型的提示工程(Text2SQL、Text2API)
大模型的提示工程(Prompt Engineering) 是通过精心设计输入文本(Prompt),引导大语言模型(LLM)生成符合预期输出的技术。在Text2SQL(自然语言转SQL)和Text2API(自然语言调接口)场景中,提示工程的核心目标是*将自然语言问题转化为准确的 SQL 查询**和**具体的 API 调用参数。
2025-06-14 10:45:00
1428
原创 什么时候GraphRAG超越传统RAG:突破医学等知识密集任务的AI新范式和GraphRAG-Bench评估框架
图检索增强生成(GraphRAG)作为一种强大的范式出现,用于通过外部知识增强大型语言模型(LLMs)。它利用图来模拟特定概念之间的层次结构,从而实现更连贯有效的知识检索,以进行准确推理。尽管概念上有前景,但最近的研究报告称,GraphRAG在许多实际任务上的表现常常不如普通的RAG。这就提出了一个关键问题:GraphRAG真的有效吗?在哪些场景下,图结构能够为RAG系统提供可衡量的益处?为了解决这一问题,我们提出了GraphRAG-Bench,一个全面的基准测试,旨在评估GraphRAG模型在层次化知识检
2025-06-13 22:39:07
759
原创 从 Naive RAG 到 Agentic RAG 架构设计演进关键技术
RAG(检索增强生成)系统一直是企业里使用大语言模型(LLMs)最有用的应用之一。我记得大约两年前我写过第一篇关于 RAG 的文章,那时候这个词还没被大家广泛使用。
2025-06-13 22:37:29
929
原创 五年前预言多模态大模型崛起,现在断言:VLA 五年内必火!
五年前预测多模态大模型一定是未来的发展和研究方向,今天预测未来五年多模态大模型的VLA方向必火。
2025-06-12 20:48:31
708
原创 一种推理阶段的偏好对齐方案--TPO,让每个人都看得懂模型优化的“信号”
如何让大模型快速适应人类偏好一直是关键挑战,传统方法如 RLHF,DPO需要提前训练去优化模型参数,不仅需要大量标注资源跟训练资源,耗时耗力,而且模型参数一旦固定,难以在推理阶段动态适应新的偏好需求。
2025-06-12 20:46:57
537
原创 最新|用Qwen3 Embedding+Milvus,搭建最强企业知识库
这几天阿里低调放出两款 Qwen3 家族的新模型:Qwen3-Embedding 和 Qwen3-Reranker(都分别包括0.6B轻量版、4B平衡版、8B高性能版三种尺寸)。两款模型基于 Qwen3 基座训练,天然具备强大的多语言理解能力,支持119种语言,覆盖主流自然语言和编程语言。
2025-06-12 20:45:22
972
原创 AI大模型高考状元榜出炉:国产屠榜文科TOP3,理科三甲看海外!“文科杀手”的GPT-4o历史仅71分!
01 .AI大模型「高考专题」评测****榜单说明【评测目标】以评促优、以评促用、以评促享【评测模型】国内外主流大模型,累计119个(文末附大模型高考成绩单)【评测集】高考历年真题、2025最新模拟题等最新题集,低污染度,大模型“闭卷”考试实测;为便于各科目横向对比,本次评分机制为百分制;【评测方式】官方API【更多评测资讯】https://nonelinear.com02.AI大模型「高考专题」评测****关键发现一、2025 「AI大模型高考」单科状元榜img二、深度
2025-06-11 19:02:13
728
原创 为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。
2025-06-11 18:59:40
976
原创 本周大模型新动向:多模型压缩、双向蒸馏、多模态对齐
从多模型压缩的角度来看,模型合并能够以节省内存的方式服务于从同一基础模型微调的多个模型,但由于它们的任务特定参数调整(即deltas)之间的干扰,会导致性能下降。本文将模型合并重新表述为一种压缩和检索方案,揭示了任务干扰是由于在模型检索过程中无关deltas的累加而产生的。为了解决这一问题,本文使用随机正交变换来对这些向量进行去相关处理,使其能够自我抵消。研究表明,这种方法显著减少了干扰,在视觉和语言任务中均提高了性能。由于这些变换完全由随机种子定义,因此添加新模型不需要额外的内存。此外,它们的数据和模型不
2025-06-11 18:57:50
589
原创 九大GraphRAG的全面评估:GraphRAG-Bench基准测试集解析 - 香港理工&腾讯优图等
图检索增强生成(GraphRAG)因其在通过结构化组织领域特定语料库和促进复杂推理来增强大型语言模型(LLMs)方面的潜力而日益受到认可。然而,目前对GraphRAG模型的评估主要依赖于传统的问答数据集。它们在问题和评估指标上的有限范围无法全面评估GraphRAG模型所提升的推理能力。为了填补这一空白,我们引入了GraphRAG-Bench,这是一个大规模、领域特定的基准测试,旨在严格评估GraphRAG模型。我们的基准测试提供三个主要优势:
2025-06-11 18:55:12
642
原创 4096维的降维打击!中文向量模型终于站起来了
在人工智能飞速发展的今天,向量化技术已成为现代 AI 应用的基石。从搜索引擎到推荐系统,从文档检索到语义分析,向量模型正在重新定义我们处理和理解文本信息的方式。2025 年 6 月,阿里巴巴 Qwen 团队发布了全新的 Qwen3 Embedding 系列模型,这一系列模型在多项基准测试中取得了突破性表现,特别是在 MTEB 多语言排行榜上,8B 模型以 70.58 的成绩位居榜首。本文将深入解析 Qwen3 Embedding 模型的技术特性、应用场景以及实际部署方案,为开发者提供全面的技术参考。
2025-06-10 20:01:55
753
原创 Agent 部署全解析:LangGraph团队实战洞察
摘要:随着智能 Agent 在各行各业的落地应用,如何将这些长时、可持久化、可协同的 Agent 平稳上线,成为从实验室到生产环境的“最后一公里”难题。本文将围绕 Agent 部署的核心特点与挑战,提出可行的技术需求和解决方案,帮助开发者在架构设计和运维实践中少走弯路。
2025-06-10 20:00:19
689
原创 AutoJudger|一个多模态大模型的自主评测智能体
构建“大视觉语言模型”(Multimodal Large Language Models,简称 MLLMs)已经成为多模态领域的研究热潮。从最初的GPT-4-Vision,到后来的Qwen-VL、DeepSeek-VL 等模型,这些系统已能同时理解文字和图像,广泛应用于图文问答、图像推理、医学辅助诊断等任务。为了比较它们的能力,研究者也推出了越来越多的多模态评估基准,例如 MME、MMBench、MMMU 等(如图 1(a) 所示)。然而,问题也随之而来:评测成本正迅速成为瓶颈。
2025-06-10 19:57:26
656
原创 什么时候用GraphRAG?RAG VS GraphRAG综合分析
最近的研究报告称,在许多实际任务中,GraphRAG的表现往往不如普通的RAG。因此产生一个问题:GraphRAG真的有效吗?在哪些场景下,GraphRAG有收益?为了解决这个问题,提出GraphRAG-Bench,这是一个评测GraphRAG的基准,目的是评估GraphRAG模型在层次知识检索和深度上下文推理方面的性能。文章指出的评测方式及评测结论可以参考。
2025-06-10 19:55:45
778
原创 关注!创业慧康“AI智能体”医疗解决方案发布在即
由中国健康管理协会数智健康应用专业委员会、浙江省智慧医疗创新中心联合主办的第一届未来健康数智生态大会——医学AI多模态创新论坛”将于2025年6月15日在杭州召开。作为本次大会的承办单位之一,[创业慧康]将联合行业专家共议“AI赋能医院建设——智构未来医院,数驱精益管理”主题,并基于[慧康云3.0]战略框架发布自主研发的“AI智能体”医疗解决方案。
2025-06-09 20:29:30
861
原创 MALADE:基于大模型Agent智能体与RAG技术进行药物警戒的不良事件AE识别
在大型语言模型(LLMs)的时代,鉴于它们卓越的文本理解和生成能力,开发基于LLMs的新方法用于可信医学知识的综合、提取和总结是前所未有的机遇。本文关注药物警戒(PhV)问题,其重要性和挑战在于从多样化的文本资源(如医学文献、临床笔记和药品标签)中识别不良药物事件(ADEs)。不幸的是,这一任务受到多种因素的阻碍,包括药物和结果的术语差异,以及ADEs描述通常淹没在大量叙述性文本中。我们提出了MALADE,首个有效利用大型语言模型与检索增强生成技术进行药品标签数据中ADEs提取的协作多代理系统。该技术涉及将
2025-06-09 20:27:56
947
原创 提升AI问答准确率:请在RAG前先做RAR,超越意图识别
在RAG(检索增强生成)落地的过程中,存在一个效果显著,却常被忽视的技术方法 —— RAR
2025-06-09 20:26:20
653
原创 Spring AI Alibaba 1.0 正式 GA,打造企业级智能体生态平台!!
Spring AI Alibaba 1.0 GA 正式发布,它是专属 Spring 开发者的 AI 框架,兼具提示词模版、函数调用、格式化输出等低层次抽象与 RAG、Agent、对话记忆等高层次抽象,通义系列模型驱动,深度集成网关、配置中心、可观测等云原生基础设施生态,让 Java 智能体开发迎来一款生产可用的企业级框架与解决方案,助力企业智能体开发进入一个新阶段。
2025-06-09 20:24:37
640
原创 改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG
给定一个问题Q,基于图的RAG的关键思想是从图中检索相关信息(例如,节点、子图或文本信息),将其与Q一起作为提示,然后输入到LLM中。如下图:
2025-06-07 19:18:40
610
原创 AI概念解析:从入门到精通的36个关键术语指南
随着AI的普及和快速发展,越来越多的人开始关注AI,但是深奥晦涩的专业术语,让很多人望而却步,甚至对于人们应用AI产生了一定困难。因此,社区决定对AI领域的热点概念和专业术语进行解读,并配备相应图表以便于大家更形象的理解。我们将从七大方面进行深度解读,方便大家能够更好的进入该领域学习和应用。
2025-06-07 19:17:02
901
原创 大模型+知识库+工作流=智能体
目前AI落地应用的发展,可以基于“大模型+知识库+工作流=智能体”的思路来分析。这个框架在多个领域已有实践,但也面临挑战。以下是具体分析:
2025-06-06 19:18:29
929
原创 为什么 RAG 一定需要 Rerank?
今天想和大家深入探讨一下检索增强生成(RAG)中的一个重要环节——重排序(Rerank)。RAG 技术一直以来都备受关注,尤其是当它与大模型(LLM)结合后,人们都满怀期待地认为:这下终于可以轻松解决那些复杂的问答任务了!然而,现实往往并不如人意。很多开发者在完成一个 RAG 流程后,都会感到困惑:为什么它的效果并没有达到预期呢?
2025-06-06 19:14:12
837
原创 Gemini开源项目DeepResearch:基于LangGraph的智能研究Agent技术原理与实现
在人工智能快速发展的今天,如何构建一个能够进行深度研究、自主学习和迭代优化的AI系统成为了技术前沿的重要课题。Gemini开源的DeepResearch一周收获7.9k Star,Google的开源项目Gemini DeepResearch技术通过结合LangGraph框架和Gemini大语言模型,实现了一个具备自主研究能力的智能代理系统。本文将深入分析这一技术的核心原理和具体实现方式。
2025-06-06 19:12:06
1006
原创 国内大模型竞争格局分析
在年初DeepSeek的冲击下,国内大模型格局发生了很多变化。本文尝试对国内大模型的竞争格局进行分析,本文观点仅代表个人见解,如不认同,那就不认同。
2025-06-05 19:06:53
643
原创 一作解读「模型链」新范式:引入因果建模,全新的大模型 Scaling 结构
随着大语言模型 (LLM) 的出现,扩展 Transformer 架构已被视为彻底改变现有 AI 格局并在众多不同任务中取得最佳性能的有利途径。因此,无论是在工业界还是学术界,探索如何扩展 Transformer 模型日益成为一种趋势。
2025-06-05 19:00:21
580
原创 知识问答的终极形态:突破传统RAG的局限
传统RAG(检索增强生成)技术利用向量知识库,基于大模型的语义理解能力,通过对问题的拆解和向量搜索从知识库筛选内容。但该方法存在明显瓶颈:
2025-06-04 20:29:20
768
原创 从传统 RAG 到知识图谱 + Agent,知识库 AI 问答成功率终于达到 95% 了,来自蚂蚁集团的经验
由于一直关注 RAG 技术的发展,在我印象中有公开分享过 RAG 技术和经验,且达到很高准确率的案例,只有 Linkedin 分享的基于 Knowledge Graph 的召回率达到 85%+,后来就有了 Microsoft 公开的火爆一时的 GraphRAG 方案。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。到此为止,大概2个月的时间。
2025-06-04 20:27:24
894
原创 ICLR-25:多模态对比学习的“三原色“理论
与以往通过跨模态约束对齐不同模态特征的方法不同,CoMM旨在将多种模态的数据融合到一个共享的表示空间中,使不同模态能够在这个统一空间里进行交互,更贴近人类多感官信息整合的方式。
2025-06-03 21:08:37
721
原创 R1时代,RAG-Retrieval技术总结与展望~
RAG-Retrieval提供了全链路的 RAG 检索模型的微调(train)和推理(infer)以及蒸馏(distill)代码,也支持了多种loss,多个检索模型,一些先进的方法和trick。
2025-06-03 21:06:58
554
原创 人工智能:AI大模型构建保险Agent全景应用
引入保险产品对比 Agent 后,当用户提出对比需求,如 “我想了解重疾险 A 和重疾险 B 的区别”,Agent 立即通过自然语言理解模块解析用户需求,从保险产品数据库中精准提取两款产品的详细信息,包括保障疾病种类、赔付比例、等待期、保费计算方式等关键要素,运用数据对比和可视化模块,迅速生成一份清晰的对比表格,并以图文并茂的形式展示在销售终端设备上,整个过程仅需几秒钟。而且,传统方法应变能力差,一旦出现新的影像版式,就难以适应,不得不重新开启复杂的训练流程,严重拖慢了后续业务的处理进度。
2025-06-03 21:05:08
606
原创 单卡4090上一键GRPO微调Qwen3最新模型完整训练结果
- 基础模型:* https://modelscope.cn/models/Qwen/Qwen3-4B-Base- 数据集: 格式微调:* https://huggingface.co/datasets/unsloth/OpenMathReasoning-mini 推理GRPO训练:* https://huggingface.co/datasets/open-r1/DAPO-Math-17k-Processed
2025-06-02 10:45:00
905
原创 Agent综述论文火了,10大技术路径一文看尽
近日,来自美国康奈尔大学等高校研究团队的一篇智能体研究综述论文爆火出圈,相关推文在社交媒体平台X上收获超70万阅读量,过万收藏。这篇长达32页的综述,深度分析了Agent(智能体)研究中最容易混淆的一组核心概念——**AI Agents和Agentic AI**,并讨论了智能体技术发展过程中几大堵点问题的技术解决思路。
2025-06-01 10:45:00
571
原创 RAG技术全解析:从基础原理到优化实战
你了解RAG吗?,下面这些问题你是否能回答上来呢?- 什么是 RAG(RAG 的流程是什么),为什么需要 RAG?- 如何对文档分块(Chunking)?分块大小如何选择?
2025-05-31 10:45:00
688
原创 聊聊在大模型推理强化学习中熵机制上的探索
在RL训练LLM的过程中,普遍存在模型entropy迅速下降/性能迅速饱和的现象。这导致模型过度自信,进而削弱其探索能力,最终限制了性能的进一步提升。
2025-05-30 20:17:24
720
转载 一文搞懂基于大模型快速搭建本地RAG知识库应用实践
学习AI大语言模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。大语言模型本身存在一些局限性,而RAG就像那种上学时的“开卷小天才”——会查资料,还会加工,能有效减少产生误导性信息的可能,它是AI大模型应用的创新方法,为AI的回答能力打开了新世界的大门,为企业搭建知识库提供了全新的解决方案(即通过结合信息检索、增强和文本生成能力,有效提升大模型在知识密集型任务的准确性、可靠性、可解释性,以及大幅减少大模型的幻觉)。
2025-05-29 19:37:28
790
原创 赢得企业RAG挑战赛的秘诀 —— 冠军方案剖析与感悟
前不久看到一篇技术博客,是名为 **Ilya Rice** 的工程师所著(OS:想念另一位Ilya大佬的第N天),文中记录了作者在一次**RAG挑战赛**中,尝试过的有效方法,及踩过的坑。
2025-05-29 18:55:50
662
原创 一键式训练端到端Agent,Qwen3+MCP工具集高效集成!
Deepseek-R1 的成功已经证明了纯 RL 路线的强大潜力,但现有 RL 框架对于工具配置和奖励设计要求较高的工程能力。RLFactory 的出现,正是为了解决这一痛点,让使用者专注于核心算法创新,而无需为繁琐的工程细节分心。
2025-05-29 18:53:33
595
原创 向量数据库和嵌入模型
Vector是向量或矢量的意思,向量是数学里的概念,而矢量是物理里的概念,但二者描述的是同一件事。向量的准确定义:向量是用于表示具有大小和方向的量。具体而言,向量可以在不同的维度空间中定义,最常见的是二维和三维空间中的向量,但理论上也可以有更高维的向量。例如,在二维平面上的一个向量可以写作(x,y),这里x和y分别表示该向量沿两个坐标轴方向上的分量;而在三维空间里,则会有一个额外的z坐标,即(x,y,z)。
2025-05-29 18:52:09
748
原创 腾讯健康AI医疗布局:做能落地的、有价值的AI应用
自2023年大模型技术初步切入医疗赛道,短短两年时间业内已有超百款医疗大模型相继落地,从文本、影像到药物研发,全方位覆盖诊疗、科研等医疗相关活动的方方面面。
2025-05-28 19:22:54
860
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人