- 博客(55)
- 收藏
- 关注
原创 RAG 系统评估与优化指南:从 RAGAS 到 ARES 的实战应用
摘要:RAG系统评估的科学方法论 当前RAG系统开发中存在严重依赖主观测试的问题,导致系统性能难以量化衡量。本文提出建立科学评估体系的必要性,并介绍四大核心指标:答案忠实度(衡量生成内容与上下文的匹配度)、答案相关性(评估回答与问题的契合度)、上下文精度(检索信息的精准度)和上下文召回率(检索信息的全面性)。通过RAGAS和ARES两大评估框架的对比,展示如何将理论指标转化为可操作的量化评估工具,为RAG系统优化提供数据支撑。
2025-06-14 14:53:36
510
原创 AI Agent 架构设计:ReAct 与 Self-Ask 模式对比与分析
在现代 Agent 设计中,任务型 Agent 和 认知型 Agent 的界限愈发清晰。前者专注于高效执行封闭领域的具体流程(如处理退款申请),而后者则致力于解决开放域的复杂问题(如“分析市场趋势并撰写报告”)。架构设计是决定 Agent 智能上限的关键。ReAct 和 Self-Ask 正是当前 LLM-based Agent 架构中,分别代表“行动派”和“思考派”的两种主流范式。
2025-06-07 19:05:36
1222
原创 DeepSeek-R1-0528 模型最新发布:编程推理能力跃升
2025年5月28日,深度求索正式发布开源推理模型DeepSeek-R1-0528,在编程能力、复杂推理和长时思考等核心指标上实现重大突破。该模型基于660B参数的MoE架构优化,通过动态路由策略提升推理速度至26token/s,并实现30-60分钟的连续推理能力。在代码生成和数学推理任务中表现优异,接近商业顶级模型水平。采用MIT许可证开源策略,同步发布6个蒸馏版本,显著降低企业应用成本。其创新性的强化学习训练范式展现出"智能涌现"特性,为AI行业提供了新的技术发展方向。
2025-05-29 17:05:19
3330
原创 高效推理引擎深度解析:vLLM 与 TGI 架构设计与性能实战指南
本文深入剖析了两大主流大模型推理引擎vLLM和TGI的架构设计与性能优化策略。vLLM的核心创新是PagedAttention机制,通过分块管理KV Cache实现90%以上的内存利用率,支持内存共享和动态调度,显著提升并发能力。TGI则侧重于云原生部署,采用Continuous Batching、张量并行和多种量化技术,并基于Rust+Python混合架构保证性能与安全性。两者都支持流式输出、分布式推理等高级特性,但优化侧重点不同:vLLM更关注内存效率,TGI强调生产环境健壮性。文章还提供了部署实践方案
2025-05-28 18:29:54
780
原创 如何构建通用深度反思(deep-research)能力的Agent?
要让Agent从简单的任务执行者进化为能够进行复杂问题解决、持续学习和自我优化的智能体,赋予其“深度反思”能力至关重要。本文将借鉴 local-deep-researcher等项目的核心思想,探讨如何构建一个具备通用深度反思能力的Agent,并提供从0到1的实践指南,直至高级应用案例。为什么需要深度反思能力?传统的Agent往往遵循“感知-规划-行动”的线性模式。当任务复杂、环境多变或初步结果不理想时,它们缺乏有效的自我纠错和策略调整机制。深度反思能力允许Agent:这种能力使得Agent在研究、写作、编
2025-05-11 16:34:28
633
原创 大模型MCP更高效的通信:StreamableHTTP协议
Model Context Protocol (MCP) 引入了新的 StreamableHTTP 通信协议,以提升模型服务器与客户端之间的通信效率和灵活性。StreamableHTTP 基于 HTTP/1.1 或 HTTP/2,支持双向流式数据传输,适用于分布式和云原生环境。相比传统 stdio 和 Server-Sent Events (SSE),StreamableHTTP 具有 Web 友好性、标准化、双向流处理、持久连接和元数据处理等优势,成为 MCP 在分布...
2025-05-10 16:59:46
1360
原创 大模型MCP技术这么火,现阶段落地有哪些缺点?
MCP技术最近火出圈,作为大模型 Agent 与外部环境交互的关键支撑,正受到广泛关注。MCP 致力于构建一个标准化的桥梁,让大模型能高效连接各类数据源、工具及系统,大幅拓展其应用边界,就像为大模型装上了 “万能钥匙”,理论上能开启各种复杂任务的大门。但随着深入取使用,MCP 技术暴露出一系列亟待完善的缺点,这些问题限制了其进一步大规模应用与发展。在技术选型中需要权衡利弊。
2025-05-07 17:57:25
1106
原创 markitdown:强大的文件转 Markdown 工具
markitdown是由微软团队开发的 Python 包和命令行工具,它专注于将多种文件格式转换为 Markdown。与其他类似工具(如textract)相比,markitdown更注重保留重要的文档结构和内容,如标题、列表、表格、链接等。虽然其输出通常对人类也有一定的可读性,但主要设计目的是供文本分析工具使用,而非用于高保真度的人类可读文档转换。PDFPowerPointWordExcel图像(包含 EXIF 元数据和 OCR)音频(包含 EXIF 元数据和语音转录)HTML。
2025-04-24 17:44:38
1340
1
原创 langchain & langgraph 快速集成mcp: langchain-mcp-adapters
langchain-mcp-adapters 是一个功能强大的轻量级包装库,旨在让 Anthropic 模型上下文协议(MCP)工具能够与 LangChain 和 LangGraph 无缝兼容。首先,需要安装通过库,开发者可以方便地将 MCP 工具集成到 LangChain 和 LangGraph 中,从而利用 MCP 协议的优势,扩展 LangChain 和 LangGraph 的功能。该库提供了工具转换、多服务器支持等核心功能,使得开发者能够更轻松地构建复杂的语言模型应用。
2025-04-19 15:36:06
1720
原创 大模型量化实战:GPTQ与AWQ量化方案对比与部署优化
型量化技术应运而生,旨在通过降低模型参数的数值精度(例如,从 FP16/BF16 转换为 INT8 或 INT4)来压缩模型大小、减少内存占用并加速推理,同时尽可能地保持模型精度。在众多量化方案中,后训练量化(Post-Training Quantization, PTQ)因其无需重新训练、简单高效而备受关注。GPTQ 和 AWQ...
2025-04-15 20:08:49
1298
6
原创 Google A2A协议解析:构建分布式异构多Agent系统
A2A:专注于代理之间的通信和协作,适用于多代理协同工作的场景。MCP:专注于代理对工具和数据的访问,旨在提升单个代理的内部能力。互补性:A2A 实现代理间的“对话”,MCP 提供代理“做事”的能力,两者可以结合使用以构建更强大的 AI 系统。基础:掌握A2A的用途、核心概念和工作原理。实践:基于官方Python示例,构建并运行了回声智能体。进阶:学习了多智能体协作、表单交互和企业部署。注意事项:了解安全性、性能等关键实践。A2A的开放性和标准化特性使其成为构建智能体生态的理想选择。
2025-04-13 18:53:36
1660
原创 LLM KV Cache压缩技术解析:Multi-Head Key-Value共享方案
随着大语言模型(LLM)在生成任务中的广泛应用,推理阶段的内存瓶颈愈发显著。特别是在长序列场景下,Transformer架构中的Key-Value(KV)缓存成为显存占用的主要来源。本文将深入剖析一种高效的KV Cache压缩技术——,从理论推导到生产级实践的实现方案。
2025-04-13 16:34:53
657
原创 大模型安全加固方案:对抗训练与后门攻击防御实践
随着大语言模型(LLM)在各个领域的广泛应用,其安全性问题日益凸显。对抗攻击和后门攻击是两种主要的威胁,可能导致模型性能下降、输出有害内容或被恶意控制。本文旨在深入探讨这两种攻击的原理,并提供一套基于对抗训练和后门防御的实战加固方案。我们将从理论出发,结合具体的代码实现和模拟的执行结果分析,帮助读者掌握大模型安全加固的核心技术和实践方法。对抗攻击的核心在于利用模型学习到的特征和决策边界中的“盲点”。举个例子:想象一下,模型在高维空间中学习了一个区分猫和狗的边界。
2025-04-12 10:56:55
996
原创 大模型最新面试题系列:模型部署(二)
通过修改中的generate# 原有代码...# 添加自定义处理逻辑custom_output = process_chunk(chunk) # 自定义处理函数在加载模型时,某些模型可能会依赖于一些自定义的代码逻辑。例如,一些模型使用了特殊的架构或者自定义的前向传播方法,这些代码并不是库中默认支持的。当你使用参数时,vLLM 会允许从远程源加载并执行这些自定义代码。这样就能让 vLLM 顺利加载和运行那些需要特殊代码实现的模型。
2025-04-06 19:43:57
1115
原创 大模型持续学习方案解析:灾难性遗忘的工业级解决方案
当一个神经网络模型(尤其是深度模型)顺序地学习一系列任务(Task 1, Task 2, ..., Task N)时,在学习新任务(如 Task k)的过程中,模型参数为了适应新任务而被修改,这些修改可能会严重破坏模型在旧任务(Task 1 to Task k-1)上学到的知识,导致其性能急剧下降。
2025-04-05 22:42:53
830
原创 Qwen最新多模态大模型:Qwen2.5-Omni介绍与快速入门
近日,Qwen2.5-Omni正式发布了!这是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。Qwen2.5-omni 的发布,在人工智能领域掀起了波澜,其创新性的技术架构为多模态交互带来了前所未有的变革。下面我们深入剖析其核心技术,理解它是如何重塑多模态交互格局的。
2025-03-30 20:30:00
1480
原创 大模型最新面试题系列:微调篇之微调框架(二)
**摘要**:围绕大模型技术相关问题展开,涵盖DeepSpeed、vllm、llama - factory、unsloth等工具。阐述DeepSpeed混合精度训练配置参数、通过`--offload`参数卸载优化器状态,以及ZeRO三阶段优化策略。探讨vllm采样参数对文本多样性控制、模型并行实现及与DeepSpeed差异。说明llama - factory处理多轮对话数据格式、设计自定义训练回调。分析unsloth流式与批量输出优缺点,以及利用KV Cache优化多轮对话推理速度等
2025-03-29 16:22:19
1062
原创 OpenAI Agent SDK 快速接入MCP
作为全球领先的 AI 研究机构,OpenAI 此次通过 Agent SDK 的升级,将 MCP 协议打造为连接智能体与外部工具的标准化桥梁。这一协议通过构建分层架构,实现了模型逻辑、运行环境与工具调用的解耦,为开发者提供了前所未有的自由度。使用Openai agent sdk mcp快速接入mcp server实现工具调用。
2025-03-28 10:38:03
798
原创 大模型MCP 教程:从原理到实战的全攻略
MCP(Model Context Protocol) 由 Anthropic 于 2024 年底开源,其目标是为大模型与外部工具 / 数据源之间建立起一座标准化的桥梁,解决兼容性和互操作性问题。从本质上讲,MCP 就像是 AI 领域的 “USB-C 接口”,它定义了一套统一的通信标准,使得大模型能够通过标准化接口连接任意工具,而无需为每个工具单独开发适配代码。。
2025-03-27 20:34:09
4040
原创 Openai Agent SDK 快速入门
最近,OpenAI 正式发布了 Agent 开发三剑客 —— 内置工具集、Responses API 和开源 Agents SDK,标志着 AI 智能体开发进入标准化阶段。本文将基于官方文档和最新技术动态,系统讲解如何利用这些工具快速构建具备自主决策能力的 AI 智能体。
2025-03-27 17:04:09
1293
原创 大模型最新面试题系列:微调篇之微调框架(一)
克隆仓库创建虚拟环境安装依赖pip install modelscope -U # 国内用户推荐命令行训练(示例)YAML配置文件(以为例)### model### methodstage: sft### train。
2025-03-15 19:39:34
1119
原创 大模型最新面试题系列:微调篇之微调基础知识
本文是大模型面试系列中微调篇的基础知识部分,重点介绍大模型微调技术中的一些常用算法,数据标注方法,微调参数设置等内容,旨在帮助读者快速掌握大模型微调的技术技术。
2025-03-15 16:23:50
1200
原创 手把手教你部署QWQ模型,开启高效推理之旅
在大语言模型蓬勃发展的当下,掌握模型的本地部署与调用技术,对于开发者深入探索模型性能、实现个性化应用至关重要。本文将以QWQ-32B模型为例,详细阐述其部署与调用的全流程,为大家提供一份全面且具有实操性的技术指南。
2025-03-12 11:06:24
1414
原创 MoE 架构演进之路:从 Switch Transformer 到 DeepSeek-R1 的工程实践
本文深入剖析了MoE(混合专家系统)架构,其由专家网络、门控网络和选择器构成,具备动态路由、条件计算和可扩展性优势。文章介绍了该架构在工程上的突破,如Switch Transformer的单专家路由、负载均衡损失和专家并行,DeepSeek - R1的动态容量调整、层级路由和通信优化。同时阐述了负载均衡优化和通信优化等关键技术,给出不同场景下架构选择和调参建议,并展望了其自适应专家创建等未来演进方向。
2025-03-07 18:06:25
1764
原创 大模型最新面试题系列:训练篇之分布式训练
模型并行显存最优,但通信开销最大;数据并行显存压力大但通信简单;流水线并行适合长模型,需平衡气泡与显存。
2025-02-28 18:52:47
893
原创 大模型最新面试题系列:训练篇之预训练
11.xx1x2⋯xn]ix′xixixiL−∑i∈MlogPxi∣x∖i′)Mx∖i′ixx1x2⋯xn]xi1xi1xi1L−∑i1n−1logPxi1∣x1⋯xi。
2025-02-27 18:33:28
538
原创 大模型最新面试题系列:深度学习基础(一)
假设原始的损失函数为LθL(\theta)Lθ,其中θ\thetaθ是模型的参数(权重矩阵)。L1正则化:在原始损失函数的基础上加上L1范数正则化项,得到新的损失函数LL1θLθλ∥θ∥1LL1θLθλ∥θ∥1,其中λ\lambdaλ是正则化系数,∥θ∥1∑i∣θi∣∥θ∥1∑i∣θi∣是参数的L1范数。L2正则化:在原始损失函数的基础上加上L2范数正则化项,得到新的损失函数LL2θ。
2025-02-26 07:48:17
808
原创 大模型最新面试题系列:深度学习基础(二)
对于一个多分类问题,假设有CCC个类别,样本xxx的真实标签为yyy(用one - hot编码表示),模型的预测概率分布为y\hat{y}y,其中yi\hat{y}_iyi表示样本xxx属于第iii类的预测概率。L−∑i1CyilogyiL−∑i1Cyilogyi对于一个回归问题,假设样本 (x) 的真实值为 (y),模型的预测值为y\hat{y}yLMSE1n∑i1n。
2025-02-26 07:44:35
814
原创 AutoGen 技术博客系列 九:从 v0.2 到 v0.4 的迁移指南
这是一份为 `autogen-agentchat` `v0.2.*` 版本用户提供的迁移指南,旨在帮助用户升级到 `v0.4` 版本,该版本引入了一组新的 API 和功能。`v0.4` 版本包含重大变更,请仔细阅读本指南。我们仍在 `0.2` 分支中维护 `v0.2` 版本,但强烈建议您升级到 `v0.4` 版本。
2025-02-22 21:08:28
1230
原创 AutoGen 技术博客系列 八:深入剖析 Swarm—— 智能体协作的新范式
在人工智能的浩瀚星空中,AutoGen 的 Swarm 模式犹如一颗耀眼的新星,正引领着智能体协作的新潮流。今天,就让我们一同深入探究这一强大模式的奥秘。
2025-02-22 21:01:14
915
原创 大模型高效注意力机制全解析:FlashAttention 与稀疏注意力实战
自定义注意力测试代码的目的是通过对比标准注意力和 FlashAttention 的计算时间和输出差异,直观地展示 FlashAttention 的加速效果和准确性。下面详细解释测试代码的实现逻辑和典型输出的含义,以及如何通过测试对比不同注意力机制的性能。# 生成测试数据n = 4096 # 序列长度d = 128 # 特征维度# 标准计算# FlashAttention计算print(f"标准耗时: {std_time:.3f}s")
2025-02-20 20:11:58
1745
原创 AutoGen 技术博客系列 (七):状态管理与组件序列化解析
在 AutoGen 的复杂技术架构中,状态管理与组件序列化宛如两大基石,对整个系统的稳定运行、高效协作以及功能扩展起着举足轻重的作用。接下来,就让我们深入探究其内部机制,通过详实的代码示例、深度的原理分析以及源码解读,全面理解它们的奥秘。
2025-02-20 09:25:02
937
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人