
大模型核心技术深度解析
文章平均质量分 94
深入大语言模型的技术架构和优化以及核心技术解析,持续输出覆盖模型架构、训练技术、推理优化、以及大模型加速和大模型安全相关技术内容分享。
人肉推土机
持续输出优质技术分享,欢迎关注
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
AI Agent 架构设计:ReAct 与 Self-Ask 模式对比与分析
在现代 Agent 设计中,任务型 Agent 和 认知型 Agent 的界限愈发清晰。前者专注于高效执行封闭领域的具体流程(如处理退款申请),而后者则致力于解决开放域的复杂问题(如“分析市场趋势并撰写报告”)。架构设计是决定 Agent 智能上限的关键。ReAct 和 Self-Ask 正是当前 LLM-based Agent 架构中,分别代表“行动派”和“思考派”的两种主流范式。原创 2025-06-07 19:05:36 · 1169 阅读 · 0 评论 -
DeepSeek-R1-0528 模型最新发布:编程推理能力跃升
2025年5月28日,深度求索正式发布开源推理模型DeepSeek-R1-0528,在编程能力、复杂推理和长时思考等核心指标上实现重大突破。该模型基于660B参数的MoE架构优化,通过动态路由策略提升推理速度至26token/s,并实现30-60分钟的连续推理能力。在代码生成和数学推理任务中表现优异,接近商业顶级模型水平。采用MIT许可证开源策略,同步发布6个蒸馏版本,显著降低企业应用成本。其创新性的强化学习训练范式展现出"智能涌现"特性,为AI行业提供了新的技术发展方向。原创 2025-05-29 17:05:19 · 3263 阅读 · 0 评论 -
高效推理引擎深度解析:vLLM 与 TGI 架构设计与性能实战指南
本文深入剖析了两大主流大模型推理引擎vLLM和TGI的架构设计与性能优化策略。vLLM的核心创新是PagedAttention机制,通过分块管理KV Cache实现90%以上的内存利用率,支持内存共享和动态调度,显著提升并发能力。TGI则侧重于云原生部署,采用Continuous Batching、张量并行和多种量化技术,并基于Rust+Python混合架构保证性能与安全性。两者都支持流式输出、分布式推理等高级特性,但优化侧重点不同:vLLM更关注内存效率,TGI强调生产环境健壮性。文章还提供了部署实践方案原创 2025-05-28 18:29:54 · 763 阅读 · 0 评论 -
如何构建通用深度反思(deep-research)能力的Agent?
要让Agent从简单的任务执行者进化为能够进行复杂问题解决、持续学习和自我优化的智能体,赋予其“深度反思”能力至关重要。本文将借鉴 local-deep-researcher等项目的核心思想,探讨如何构建一个具备通用深度反思能力的Agent,并提供从0到1的实践指南,直至高级应用案例。为什么需要深度反思能力?传统的Agent往往遵循“感知-规划-行动”的线性模式。当任务复杂、环境多变或初步结果不理想时,它们缺乏有效的自我纠错和策略调整机制。深度反思能力允许Agent:这种能力使得Agent在研究、写作、编原创 2025-05-11 16:34:28 · 630 阅读 · 0 评论 -
大模型MCP更高效的通信:StreamableHTTP协议
Model Context Protocol (MCP) 引入了新的 StreamableHTTP 通信协议,以提升模型服务器与客户端之间的通信效率和灵活性。StreamableHTTP 基于 HTTP/1.1 或 HTTP/2,支持双向流式数据传输,适用于分布式和云原生环境。相比传统 stdio 和 Server-Sent Events (SSE),StreamableHTTP 具有 Web 友好性、标准化、双向流处理、持久连接和元数据处理等优势,成为 MCP 在分布...原创 2025-05-10 16:59:46 · 1318 阅读 · 0 评论 -
大模型MCP技术这么火,现阶段落地有哪些缺点?
MCP技术最近火出圈,作为大模型 Agent 与外部环境交互的关键支撑,正受到广泛关注。MCP 致力于构建一个标准化的桥梁,让大模型能高效连接各类数据源、工具及系统,大幅拓展其应用边界,就像为大模型装上了 “万能钥匙”,理论上能开启各种复杂任务的大门。但随着深入取使用,MCP 技术暴露出一系列亟待完善的缺点,这些问题限制了其进一步大规模应用与发展。在技术选型中需要权衡利弊。原创 2025-05-07 17:57:25 · 1090 阅读 · 0 评论 -
markitdown:强大的文件转 Markdown 工具
markitdown是由微软团队开发的 Python 包和命令行工具,它专注于将多种文件格式转换为 Markdown。与其他类似工具(如textract)相比,markitdown更注重保留重要的文档结构和内容,如标题、列表、表格、链接等。虽然其输出通常对人类也有一定的可读性,但主要设计目的是供文本分析工具使用,而非用于高保真度的人类可读文档转换。PDFPowerPointWordExcel图像(包含 EXIF 元数据和 OCR)音频(包含 EXIF 元数据和语音转录)HTML。原创 2025-04-24 17:44:38 · 1307 阅读 · 0 评论 -
langchain & langgraph 快速集成mcp: langchain-mcp-adapters
langchain-mcp-adapters 是一个功能强大的轻量级包装库,旨在让 Anthropic 模型上下文协议(MCP)工具能够与 LangChain 和 LangGraph 无缝兼容。首先,需要安装通过库,开发者可以方便地将 MCP 工具集成到 LangChain 和 LangGraph 中,从而利用 MCP 协议的优势,扩展 LangChain 和 LangGraph 的功能。该库提供了工具转换、多服务器支持等核心功能,使得开发者能够更轻松地构建复杂的语言模型应用。原创 2025-04-19 15:36:06 · 1638 阅读 · 0 评论 -
大模型量化实战:GPTQ与AWQ量化方案对比与部署优化
型量化技术应运而生,旨在通过降低模型参数的数值精度(例如,从 FP16/BF16 转换为 INT8 或 INT4)来压缩模型大小、减少内存占用并加速推理,同时尽可能地保持模型精度。在众多量化方案中,后训练量化(Post-Training Quantization, PTQ)因其无需重新训练、简单高效而备受关注。GPTQ 和 AWQ...原创 2025-04-15 20:08:49 · 1277 阅读 · 5 评论 -
Google A2A协议解析:构建分布式异构多Agent系统
A2A:专注于代理之间的通信和协作,适用于多代理协同工作的场景。MCP:专注于代理对工具和数据的访问,旨在提升单个代理的内部能力。互补性:A2A 实现代理间的“对话”,MCP 提供代理“做事”的能力,两者可以结合使用以构建更强大的 AI 系统。基础:掌握A2A的用途、核心概念和工作原理。实践:基于官方Python示例,构建并运行了回声智能体。进阶:学习了多智能体协作、表单交互和企业部署。注意事项:了解安全性、性能等关键实践。A2A的开放性和标准化特性使其成为构建智能体生态的理想选择。原创 2025-04-13 18:53:36 · 1639 阅读 · 0 评论 -
LLM KV Cache压缩技术解析:Multi-Head Key-Value共享方案
随着大语言模型(LLM)在生成任务中的广泛应用,推理阶段的内存瓶颈愈发显著。特别是在长序列场景下,Transformer架构中的Key-Value(KV)缓存成为显存占用的主要来源。本文将深入剖析一种高效的KV Cache压缩技术——,从理论推导到生产级实践的实现方案。原创 2025-04-13 16:34:53 · 651 阅读 · 0 评论 -
大模型安全加固方案:对抗训练与后门攻击防御实践
随着大语言模型(LLM)在各个领域的广泛应用,其安全性问题日益凸显。对抗攻击和后门攻击是两种主要的威胁,可能导致模型性能下降、输出有害内容或被恶意控制。本文旨在深入探讨这两种攻击的原理,并提供一套基于对抗训练和后门防御的实战加固方案。我们将从理论出发,结合具体的代码实现和模拟的执行结果分析,帮助读者掌握大模型安全加固的核心技术和实践方法。对抗攻击的核心在于利用模型学习到的特征和决策边界中的“盲点”。举个例子:想象一下,模型在高维空间中学习了一个区分猫和狗的边界。原创 2025-04-12 10:56:55 · 971 阅读 · 0 评论 -
Qwen最新多模态大模型:Qwen2.5-Omni介绍与快速入门
近日,Qwen2.5-Omni正式发布了!这是Qwen系列中全新的旗舰级端到端多模态大模型,专为全面的多模式感知设计,无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出。Qwen2.5-omni 的发布,在人工智能领域掀起了波澜,其创新性的技术架构为多模态交互带来了前所未有的变革。下面我们深入剖析其核心技术,理解它是如何重塑多模态交互格局的。原创 2025-03-30 20:30:00 · 1452 阅读 · 0 评论 -
手把手教你部署QWQ模型,开启高效推理之旅
在大语言模型蓬勃发展的当下,掌握模型的本地部署与调用技术,对于开发者深入探索模型性能、实现个性化应用至关重要。本文将以QWQ-32B模型为例,详细阐述其部署与调用的全流程,为大家提供一份全面且具有实操性的技术指南。原创 2025-03-12 11:06:24 · 1409 阅读 · 0 评论 -
MoE 架构演进之路:从 Switch Transformer 到 DeepSeek-R1 的工程实践
本文深入剖析了MoE(混合专家系统)架构,其由专家网络、门控网络和选择器构成,具备动态路由、条件计算和可扩展性优势。文章介绍了该架构在工程上的突破,如Switch Transformer的单专家路由、负载均衡损失和专家并行,DeepSeek - R1的动态容量调整、层级路由和通信优化。同时阐述了负载均衡优化和通信优化等关键技术,给出不同场景下架构选择和调参建议,并展望了其自适应专家创建等未来演进方向。原创 2025-03-07 18:06:25 · 1756 阅读 · 0 评论 -
大模型高效注意力机制全解析:FlashAttention 与稀疏注意力实战
自定义注意力测试代码的目的是通过对比标准注意力和 FlashAttention 的计算时间和输出差异,直观地展示 FlashAttention 的加速效果和准确性。下面详细解释测试代码的实现逻辑和典型输出的含义,以及如何通过测试对比不同注意力机制的性能。# 生成测试数据n = 4096 # 序列长度d = 128 # 特征维度# 标准计算# FlashAttention计算print(f"标准耗时: {std_time:.3f}s")原创 2025-02-20 20:11:58 · 1737 阅读 · 0 评论 -
DeepSeek R1 GRPO 强化训练:原理与 Qwen 模型基于GRPO强化训练实战
在大语言模型(LLMs)的发展历程中,训练算法的创新始终是推动模型性能提升的关键因素。GRPO(Group Relative Policy Optimization,群体相对策略优化)算法的出现,为大规模语言模型的训练带来了新的思路和突破。本文将深入剖析 GRPO 算法的原理、实现细节,对比其与传统算法的差异,并通过实际案例展示如何运用 GRPO 强化训练 Qwen-7B 模型,使其具备强大的推理逻辑。原创 2025-02-18 12:14:40 · 1644 阅读 · 0 评论