自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI前沿技术的分享!

AI前沿技术的分享!

  • 博客(179)
  • 收藏
  • 关注

原创 目前流行Agent框架对比表

Agent框架对比

2025-06-13 18:24:42 860

原创 MCP核心原理,一篇文章带你轻松上手

本文介绍MCP协议,旨在统一AI模型与外部数据源和工具的交互。文章首先阐述了MCP的基本工作原理,包括Host、Client和Server的交互流程。接着分析了MCP Server的两种通信协议:STDIO(本地进程通信)和SSE(HTTP远程调用),并通过配置示例说明了两者的差异。文章还解读了MCP Server配置中的命令参数,以npx和uvx为例展示了如何调用npm和Python工具包,并通过实际命令演示了STDIO协议的数据传输格式,说明了MCP如何将结构化参数传递给工具包执行。

2025-06-12 10:57:43 1136

原创 OpenAI凌晨重磅出击!o3-pro正式登场

它总是向前看是垂直的,向后看是平坦的,但它是一条平滑的曲线。一千年前,一位自给自足的农民会看着我们许多人的所作所为,说我们所做的工作是虚假的,认为我们只是在玩游戏自娱自乐,因为我们拥有充足的食物和难以想象的奢侈品。另外,根据模型文档,o3-pro 支持文本和图像两种输入模态,上下文窗口大小为 200k,最大输出 token 数为 100k,知识的截至时间为 2024 年 6 月 1 日,所以它本身并不具备近一年内的信息,但用户可以通过搜索和知识库等工具为其提供更多上下文。更多的人将能够创作软件,以及艺术。

2025-06-11 11:18:49 551

原创 Qwen3-Embedding技术报告解读

文本嵌入和重排序在网络搜索、问答系统和推荐系统等自然语言处理 (NLP) 和信息检索 (IR) 应用中至关重要。高质量的嵌入使模型能够捕获文本之间的语义关系,而有效的重排序机制可确保最相关的结果获得优先权。该论文介绍了 Qwen3 Embedding 系列,旨在提升文本嵌入和重排序能力。

2025-06-10 21:10:20 593

原创 RAG:LLM如何让“大脑”与“外援”完美融合,一文读懂

研究还指出,RAG的解释性研究面临两大挑战:外部知识是非结构化数据,且涉及内外两种知识来源。为此,研究者提出从宏观知识流和微观模块贡献两个维度进行分析,并引入“知识激活概率熵”(KAPE)方法,识别与内外知识相关的神经元,通过调控这些神经元来改变LLM对知识源的依赖。这一发现为构建更可靠、透明的RAG系统提供了理论基础,也为未来RAG技术的发展指明了方向。

2025-06-10 16:08:30 787

原创 Cursor团队访谈录:AI编程的关键判断、行动方向与限制

团队几位核心成员围绕 “AI 编程” 这个主题,聊了很多当前他们在产品和研究中的一线观察和思考,涵盖范围从模型训练、工具链设计,到反馈机制、记忆系统、长上下文的处理方式等等,几乎把现在 AI 编程 Agent 遇到的关键问题都过了一遍。

2025-06-07 11:45:00 873

原创 行业洞察:多工具任务调度中MCP与Agent + Function call路径的选择

本文系统探讨了大语言模型(LLMs)应用中两种主流外部资源接入方案:MCP标准化协议和Agent+Function Call动态调度机制。MCP通过统一接口标准简化了工具与数据源的集成,采用轻量级服务器架构支持各类数据源接入。Agent+Function Call则通过结构化函数调用实现动态工具调度,增强模型实时交互能力。两种方案各有优势,MCP更适合标准化系统集成,而Agent模式更适用于灵活的多轮交互场景。文章还通过具体代码示例展示了Function Call的实现流程,为开发者提供了实用参考。

2025-06-07 07:30:00 991

原创 LlamaFactory × 多模态RAG × Chat-BI:万字长文探寻RAG进化轨迹,打造卓越专业AI助手

本文详细介绍了如何结合LlamaFactory、多模态RAG和Chat-BI技术,打造专业的AI医学问答系统。文章从基础的RAG(检索增强生成)技术讲起,阐述了其通过检索外部知识库信息提升大模型回答准确性和专业性的原理。接着介绍了多模态RAG的升级,使其能够处理文本、图像、音频等多种模态数据,实现更丰富的交互和更精准的诊断等能力。此外,文章还探讨了多模态与BI(商业智能)的融合,通过构建复杂架构,让系统能够处理医学影像诊断、数据统计、图表生成等多种任务。

2025-06-06 23:31:20 976

原创 华为港城 RAG 推理训练新突破:过程监督助力 5k 样本性能超越 90k 模型

城市大学与华为团队提出ReasonRAG框架,突破检索增强生成(RAG)技术瓶颈。针对传统结果监督强化学习在Agentic RAG中存在的探索低效、奖惩模糊等问题,该研究创新性地引入过程监督机制,通过细粒度奖励设计、蒙特卡洛树搜索和自动数据构建三大核心技术,实现了模型推理能力的显著提升。实验显示,ReasonRAG仅用5k训练数据即超越需90k数据的基线模型,在多跳推理和跨领域任务中表现出色。该成果为复杂知识推理任务提供了高效解决方案。

2025-06-03 17:22:53 789

原创 SIGIR 25:快手创新实践,以层次搜索赋能LLM推荐

摘要 大型语言模型(LLM)为推荐系统(RS)带来新机遇,但其处理长序列用户行为和动态兴趣演变的挑战尚未解决。本文提出HiT-LBM框架,通过**分块用户行为提取(CUBE)和层次树搜索兴趣(HTS)**模块,将终身行为建模为层次化兴趣树,结合时间感知融合(TIF)生成紧凑表示。实验表明,HiT-LBM在MovieLens-1M、Amazon Book和工业数据集上显著提升AUC(最高4.12%),在线A/B测试广告收入增长3.5%。该框架模型无关,有效解决了LLM在长序列建模和兴趣动态捕捉中的局限性。

2025-05-29 18:18:10 1254

原创 蚂蚁TuGraph图数据库行业落地,开启数据处理新“视界”

GraphRAG技术通过结合图数据库与生成式AI,实现更精准的信息检索。TuGraph作为领先的图数据平台,支持高效存储和查询复杂关系数据。GraphRAG利用图结构捕捉实体间关系,相比传统RAG能提供更丰富的上下文和多跳推理能力。其工作流程包括查询扩展、图检索、知识增强和生成优化,特别适合处理复杂问题。这一技术代表了AI搜索领域的重要突破,为知识密集型任务提供了更智能的解决方案。

2025-05-26 15:36:00 870

原创 MCP+数据库:RAG检索的“升级版”来了!

本文探讨了一种基于MCP(模型上下文协议)提升大模型检索外部知识精度的方法,相比传统RAG技术效果更优。文章首先分析了RAG技术的局限性,包括检索精度不足、内容不完整等问题。随后介绍了MCP协议作为AI模型与外部交互的开放标准,其核心优势在于统一了不同模型的功能调用接口,降低了开发门槛。通过实际案例展示了MCP如何实现结构化数据的高精度检索,如将自然语言查询转换为数据库查询。随着主流平台对MCP的支持,该协议正成为AI工具调用的行业标准,为开发者提供了更高效的解决方案。

2025-05-24 09:45:39 1365

原创 1bit极度量化+高召回,RaBitQ向量量化算法:行业新王诞生

非结构化数据处理成本高,当存储与计算成本超过业务价值时,数据会从宝藏变为电子垃圾。Milvus提出降本方案,包括高效索引、冷热数据分层和向量量化技术。传统二值量化(1-bit)虽大幅压缩内存(FP32的1/32),但召回率低。Milvus集成的RaBitQ技术突破这一限制,在保持高召回率的同时,将查询吞吐量提升3倍。其核心是利用高维向量的测度集中特性,通过角度信息编码替代精确坐标存储,并结合轻量训练、硬件优化和FAISS兼容性。工程实践上,Milvus通过预计算、CPU指令加速和多级量化进一步优化性能。

2025-05-24 09:08:24 789

原创 IBM RAG挑战赛冠军方案全流程复盘

在公司年报智能问答比赛中,参赛者需在2.5小时内解析100份PDF年报并构建问答系统,回答100个预设模板问题,答案需注明页码。获胜方案基于RAG系统,增加两个路由器和LLM重排序模块,显著提升效果。RAG开发流程包括解析、数据摄取、检索和回答。解析阶段,选择Docling解析器并用GPU加速,应对PDF复杂格式和表格结构保留挑战。数据摄取阶段,将报告转为Markdown文本并分块存储,提升检索效率。虽未采用表格序列化技术,但展现处理复杂表格潜力。

2025-05-22 09:12:05 1281

原创 Gemini Diffusion:文本生成的范式变革

Gemini Diffusion 是谷歌 DeepMind 于2025年推出的一款创新文本生成模型,首次将图像生成领域的扩散技术应用于语言模型。该模型通过逐步细化噪声生成整个文本块,而非传统的逐词生成方式,显著提升了生成速度和连贯性。Gemini Diffusion 在编程、数学问题求解和文本编辑等任务中表现出色,尤其在代码生成和快速迭代方面具有优势。尽管在逻辑推理任务上表现稍弱,但其每秒2000个token的生成速度远超传统模型。

2025-05-21 20:22:11 950

原创 通义千问开源新动作:WorldPM世界偏好模型面世

本文提出世界偏好建模(WorldPM),通过扩展定律实现人类偏好的统一表示。研究从公共论坛收集1500万偏好样本,用于训练1.5B至72B参数的模型。实验发现,对抗性指标随模型和数据规模增加而提升,客观指标在大模型中涌现,主观指标无扩展趋势。WorldPM在多个基准测试中显著提升泛化性能,有限数据下性能提升超5%。集成到RLHF流程后,内部和公共评估集改进4%到8%,展现出偏好建模和微调的扩展潜力。

2025-05-21 10:22:28 919

原创 Qwen3 - 0.6B与Bert文本分类实验:深度见解与性能剖析

本文对比了Qwen3-0.6B和Bert在Ag_news数据集上的文本分类性能。Qwen3-0.6B采用线性层分类时F1值达0.949,优于Bert的0.945;而其SFT分类方法F1值为0.941。推理效率方面,Bert的RPS为60.3,Qwen3-0.6B线性层分类为38.1,SFT分类为13.2。实验表明,Qwen3-0.6B的Think模式比No Think模式准确率仅高1%,但推理时间更长。实验局限性包括未测试中文文本分类任务,且数据集相对简单。

2025-05-19 09:23:24 1350 1

原创 从YOLOv1到YOLOv11:十年间目标检测技术的全面演进

YOLO(You Only Look Once)系列模型自2015年推出以来,彻底变革了目标检测领域,以其单一回归问题设计提升检测效率。文章详述了YOLO从v1到11的演变历程,每一代均在精度和速度上有所突破,特别是最新的YOLO11,在实时检测和多任务应用中表现出色。

2025-05-19 09:17:09 1067

原创 DeepSeek-V3再发论文,低成本训练大模型的秘密

因此,来自同一 QP 的数据包可能会穿越不同的网络路径,并以无序方式到达接收方,因此需要在网卡内原生支持无序布局,以保证消息一致性并保留正确的排序语义。在 H800 架构中,纵向扩展(scale-up,节点内)和横向扩展(scale-out,节点间)通信之间的带宽差异约为 4:1。具体而言,NVLink 可提供 200GB/s 的带宽(其中实际可实现约 160GB/s),而每个 400Gbps IB 网卡仅提供 50GB/s 的带宽(考虑到较小的消息大小和延迟影响,有效带宽为 40GB/s)。

2025-05-15 20:11:40 720

原创 CCF BDCI基于运营商文本数据的知识库检索(RAG)大赛亚军方案分享

最近参加了CCF BDCI的比赛,获得了A榜第一,B榜第二的成绩。该赛题要求使用运营商相关的文档构建知识库,根据用户问题检索知识库并返回答案所在的文本块。这个赛题对检索要求很高,在检索到正确文本块的情况下还需要精确地找到答案对应的句子。在比赛过程中,我们开发了一系列文本压缩策略,从简单到复杂逐步优化。

2025-05-14 18:38:40 752

原创 CCF第七届AIOps国际挑战赛季军分享(RAG)

分享CCF 第七届AIOps国际挑战赛的季军方案,从我们的比赛经历来看,并不会,相反,私域领域问答的优秀效果说明RAG真的很重要历经4个月的时间,从初赛赛道第1,复赛赛道第2,到最后决赛获得季军,这一路我们团队收获了很多实践经验,也结识了不少业界的RAG研究者,受益匪浅。应组委会邀请,本文介绍一下我们EasyRAG方案的亮点和实验结果,欢迎感兴趣的朋友批评指正!

2025-05-14 18:33:36 1058

原创 Qwen3技术全貌解读报告

Qwen3模型的训练流程分为预训练和后训练两大部分。预训练阶段包括三个步骤:首先进行30万亿标记的通用训练,接着进行5万亿标记的推理训练,最后通过长文本训练扩展上下文长度至32,768标记。后训练阶段则包括长链思维冷启动、推理强化学习、思维模式融合、通用强化学习以及奖励设计五个关键步骤。长链思维冷启动通过两阶段过滤构建高质量数据集,推理强化学习采用GRPO方法优化模型参数,思维模式融合通过设计聊天模板实现思维与非思维模式的动态切换,通用强化学习则通过复杂的奖励系统提升模型在多种场景下的能力。

2025-05-14 09:08:37 1105

原创 大模型赋能小红书推荐:行业落地案例分享

小红书拥有海量笔记和丰富内容生态,其推荐系统通过多轮筛选排序,结合多模态内容理解技术(如BERT、RoBERTa、ResNet等架构)精准识别笔记主题和语义。同时引入CES机制和多目标CGC模型,利用强化学习优化用户互动偏好,突破信息茧房,实现更精准、多样化的内容推荐。

2025-05-12 17:28:12 970

原创 Qwen3大模型微调入门超简单:完整代码带你轻松上手

在本文中,我们会使用 Qwen3-1.7b 模型在 delicate_medical_r1_data 数据集上做全参数微调训练,实现让微调后的 Qwen3 支持对医学问题进行DeepSeek R1式的推理回复。训练中用到了transformers、datasets等工具,同时使用SwanLab监控训练过程、评估模型效果。

2025-05-12 10:51:04 973

原创 从零开始:深入构建 Agent 的 Function Call 实现

本文将介绍如何从零开始构建一个能够调用函数的Agent,而无需使用LangChain等现成框架。该Agent的目标是回答关于天气的问题,其核心流程包括思考、行动和响应三个阶段。首先,用户提出问题后,模型会分析问题并决定是否需要调用函数。接着,如果涉及天气问题,模型会调用相应的天气获取函数,并将结果整理后返回给用户。本文详细说明了如何定义天气获取函数和发送信息的方法,并通过示例代码展示了如何实现这一流程。

2025-05-10 16:18:48 937

原创 LLM文本分类微调,Base和Chat谁更胜一筹?

使用Qwen2ForSequenceClassification实现文本分类任务。

2025-05-09 17:48:21 720

原创 深度解析LM智能体互操作性协议:MCP、ACP、A2A与ANP全貌剖析

在当今人工智能领域,大语言模型(LLM)已成为核心驱动力。然而,本文将详细介绍四种新兴的智能体通信协议:模型上下文协议(MCP)、智能体通信协议(ACP)、智能体对智能体协议(A2A)和智能体网络协议(ANP),并探讨它们在不同部署场景中的互操作性解决方案。

2025-05-09 09:33:33 1075

原创 英伟达开源新王登顶,超过DeepSeek-R1!

Llama-Nemotron系列模型,这是一系列开源的异构推理模型,提供了卓越的推理能力、推理效率和适用于企业使用的开放许可证。该系列包括三种规模型号——Nano(80亿参数)、Super(490亿参数)和Ultra(2530亿参数),并且在性能上与最先进的推理模型(如DeepSeek-R1)竞争,同时提供了更高的推理吞吐量和内存效率。

2025-05-06 14:06:12 910

原创 Docker全攻略:新手入门到高手掌握的万字实战宝典

Docker 是一个开源的应用容器引擎,让开发者可以将应用程序和所有依赖打包到一个轻量级、可移植的容器中,然后在任何支持 Docker 的环境中运行。在传统的项目开发中,开发者经常遇到环境不一致的问题,比如代码在本地开发环境运行正常,但在测试或生产环境却出现各种错误,原因可能是操作系统版本、依赖库版本或配置差异。此外,传统部署方式需要手动安装和配置各种软件环境,过程繁琐且容易出错,不同服务器之间的环境也难以保持一致。

2025-05-06 09:08:35 883

原创 Qwen3:快慢思考融合,一键启停

Qwen3 的官方博客[1]中有提到,这次 Qwen3 提供了一个参数 enable_thinking,当将其设置为 True 的时候,模型就会像一般的思考模型那样开启深度思考;而将其设置为 False 的时候,模型就会像一般的模型那样快速回复。

2025-05-03 10:17:45 1179

原创 GitHub项目隐私大曝光?Devin王炸更新,DeepWiki来袭

DeepWiki 是一款由 Cognition AI 开发的 AI 驱动的交互式维基平台,旨在为 GitHub 代码仓库提供自动化、高质量的文档生成服务。它利用大型语言模型(LLM)和代码分析技术,将复杂的代码库转化为类似维基百科的知识库,方便开发者快速理解和使用代码。用户可以通过直接搜索或替换 GitHub 链接的方式访问 DeepWiki 生成的文档。此外,DeepWiki 还支持自然语言查询,能够生成代码架构图,帮助开发者更高效地进行代码审查和功能开发。

2025-04-29 19:53:20 815

原创 漫画带你轻松解锁混合推理模型的秘密

面对复杂问题,AI会像人类一样「打草稿」,一步步拆解复杂问题,比如解数学题、写代码、制定战略计划、星盘命理解读等等。举个例子,大家打游戏刷怪,传统“一根筋”推理模型无论碰见杂兵小怪还是BOSS,都一律放大招,威力大但是很快就没蓝了。以刚刚上线的Qwen3为例,用户可以通过页面上开关来切换模式,而且还可以设置思考预算,避免过多的Tokens消耗。回想阿里QwQ刚上线的时候,曾被人吐槽思维链太长,“过度思考”,这一版,Qwen3就来了一个大大的改进。用户省了tokens,模型运营方省了算力。

2025-04-29 18:33:37 486

原创 Qwen3震撼来袭!性能超越DeepSeek-R1、o3 - mini,快慢思考随心切换

今天,我们宣布推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型相比,表现出极具竞争力的结果。此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹,甚至像 Qwen3-4B 这样的小模型也能匹敌 Qwen2.5-72B-Instruct 的性能。

2025-04-29 09:16:39 905

原创 轻松解锁 LLM 语言模型的奥秘

在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。本文将为你提供一个简单直接的方法,从下载数据到生成文本,带你一步步构建大院模型。

2025-04-28 20:00:41 602

原创 LLM魔法:让非结构化文本变身知识图谱

本文探讨了利用大语言模型(LLM)将非结构化文本自动转换为知识图谱的方法。知识图谱由实体(节点)和关系(边)构成,能够结构化地表示知识。文章详细描述了使用LLM提取主谓宾(SPO)三元组,并将其转化为交互式知识图谱的步骤,包括环境配置、文本分块、定义提示模板、从LLM获取三元组以及规范化与去重处理。通过这些步骤,该方法成功从示例文本中提取了多个有效三元组,展示了LLM在知识提取中的潜力和应用前景。

2025-04-27 16:13:52 998

原创 Kimi发布全新音频基础模型,霸榜十多项基准测试,勇夺性能桂冠

Kimi-Audio 是一款新发布的通用音频基础模型,支持语音识别、音频理解及语音对话等多种任务。该模型采用集成式架构,由音频分词器、音频大模型和音频去分词器三个核心组件构成,可高效处理多模态输入。在预训练阶段,使用了约 1300 万小时多样化的音频数据,并通过监督微调提升任务表现。经评估,在自动语音识别、音频理解、音频到文本聊天和语音对话等任务中均表现优异,总体性能排名第一。目前,该项目已开源,包含模型代码和评估工具包。

2025-04-27 14:42:03 272

原创 华为 MRAG:多模态检索增强生成技术论文阅读

本文综述多模态检索增强生成(MRAG)技术,其整合多模态数据,显著提升多模态大语言模型(MLLM)性能。传统单模态RAG受限于单模态特性,无法充分利用多模态上下文信息。MRAG扩展RAG框架,实现多模态检索与生成,提升问答系统质量,降低幻觉发生率,在关键场景中表现优于单模态RAG。综述从关键技术组件、数据集、评估方法与指标及现有局限性四大维度梳理研究现状,探讨挑战并提出未来方向,揭示MRAG的革命性潜力,为其发展提供前瞻性视角。

2025-04-27 09:18:43 1072 1

原创 LLM实践:Simhash与Minhash数据去重原理剖析及代码实现

本文聚焦于LLM预训练中的数据去重环节,尤其是文档粒度去重。数据去重是LLM预训练数据处理的关键,分为文档、段落和句子三个粒度。文档去重最常见,用于删除完全重复或高度相似的文档。本文重点介绍Minhash和Simhash算法,这两种基于哈希函数的算法可将文档向量化,用于计算文档相似度。尽管哈希函数通常被认为随机且局部敏感,但Minhash和Simhash通过特定设计能够有效实现相似文档的识别。文章不仅讲解原理,还附上代码,帮助读者真正学会如何应用这些算法进行文档去重。

2025-04-27 09:10:47 765

原创 多模态大模型 Qwen2.5-VL 的学习之旅

Qwen-VL 是阿里云研发的大规模视觉语言模型(Large Vision Language Model, LVLM)。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。Qwen-VL 系列模型性能强大,具备多语言对话、多图交错对话等能力,并支持中文开放域定位和细粒度图像识别与理解。

2025-04-24 19:23:52 763

原创 简单易懂:从零开始训练CLIP模型的实用指南

# CLIP:多模态新突破CLIP 是 OpenAI 在 2021 年推出的多模态模型,可将图像和文本映射到同一向量空间。它采用图像编码器(如 ResNet 或 ViT)和文本编码器(Transformer),通过对比学习,让相关图文对距离更近,不相关图文对距离更远。该模型可实现图文匹配、图像分类等功能,为多模态应用带来新机遇。

2025-04-24 15:28:54 774

台大李宏毅-AI Agent新课

台大李宏毅-AI Agent新课

2025-04-04

Deepseek给我们带来的创业机会

Deepseek作为前沿科技企业,为创业者带来诸多机遇。其在人工智能、大数据等领域的创新技术,可助力创业者开拓智能应用开发、数据分析服务、行业解决方案等业务。创业者可借助Deepseek技术赋能,降低研发成本,提升产品竞争力,快速切入市场,实现商业价值与技术创新的双赢。

2025-02-28

AI4SCup-LLM-Rank4 比赛训练&推理代码

AI4SCup-LLM-Rank4 比赛训练&推理代码

2025-02-28

2024-KDD获奖代码

2024-KDD获奖代码

2025-02-28

AIGC发展研究资料2.0-清华大学

AIGC发展研究资料2.0-清华大学

2025-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除