LLM
文章平均质量分 89
EulerBlind
所有blog转移至 blog.nekomint.top 维护,欢迎访问
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【大模型】Hugging Face常见模型格式详解
Hugging Face支持多种模型格式,每种格式都有其特定的优势和使用场景。使用场景:开发、测试、生产部署硬件环境:CPU、GPU、边缘设备性能要求:速度、内存、精度安全要求:生产环境的安全性兼容性:跨平台、跨框架需求通过合理选择模型格式,可以显著提升模型的部署效率和运行性能。建议在实际使用中根据具体需求进行测试和优化,找到最适合的格式组合。原创 2025-07-23 16:06:08 · 1648 阅读 · 0 评论 -
【运维】SGLang服务器参数配置详解
SGLang提供了丰富的参数配置选项,开发者可以根据实际需求进行精细调优。关键是要在性能、内存使用和并发能力之间找到平衡点。建议在生产环境中进行充分的压力测试,找到最适合的参数组合。通过合理配置这些参数,可以显著提升大语言模型的推理性能和资源利用率。原创 2025-07-22 21:48:47 · 2710 阅读 · 0 评论 -
【运维】SGLang 安装指南
SGLang 是一个高性能的大语言模型推理框架,支持多种安装方式。本文档提供了详细的安装步骤和常见问题解决方案。原创 2025-07-22 17:04:35 · 2626 阅读 · 0 评论 -
【LLM】OpenRouter调用Anthropic Claude上下文缓存处理
通过在工具调用后添加用户消息的方式,我们成功绕过了OpenRouter在tool消息中无法设置缓存的限制。这种方法在保持对话语义完整性的同时,实现了有效的缓存管理,为Agent应用的成本控制提供了实用的解决方案。原创 2025-07-16 15:52:30 · 1546 阅读 · 0 评论 -
【LLM】OpenRouter 指定模型供应商指南
通过合理配置 OpenRouter 的provider提升响应速度:选择延迟最低的供应商控制成本:选择价格最优的供应商确保稳定性:避免因供应商不可用导致的服务中断在实际应用中,建议根据具体需求制定供应商选择策略,并实现适当的容错机制以保证服务的可靠性。原创 2025-07-16 14:57:15 · 1497 阅读 · 0 评论 -
【MCP】MCP鉴权: 使用Header认证保护SSE通信
本文介绍如何在服务器发送事件(SSE)中实现基于Header的认证机制,确保实时数据的安全传输。通过Python和MCP SDK,我们构建了一个健壮的SSE服务,包括完整的错误处理和连接管理。文章详细解析认证流程、安全最佳实践和常见问题排查,适用于需要构建安全实时通信的开发者。原创 2025-04-18 11:03:30 · 5339 阅读 · 3 评论 -
【MCP】FastAPI-MCP: 为AI模型赋能的零配置API工具
本文深入探讨 FastAPI-MCP 库,该库利用 FastAPI 内建的 OpenAPI schema 生成能力,自动化地将 API 端点转换为符合模型上下文协议(MCP)规范的工具。我们将讨论其核心机制、实现细节、高级配置选项以及与 MCP 客户端的集成方式,旨在为需要将现有 FastAPI 服务暴露给 AI Agent 或其他 MCP 兼容系统的开发者提供技术参考。原创 2025-04-18 00:33:42 · 1847 阅读 · 0 评论 -
【LLM】A2A 与 MCP:剖析 AI Agent 互联时代的两种关键协议
LLM MCP A2A原创 2025-04-14 23:49:44 · 1650 阅读 · 0 评论 -
【LLM】解锁Agent协作:深入了解谷歌 A2A 协议与 Python 实现
人工智能(AI)智能体正迅速成为企业提高生产力、自动化工作流程和增强运营能力的关键工具 [2]。从处理日常重复性任务到协助复杂的决策,智能体的潜力巨大。然而,当这些智能体来自不同的供应商、使用不同的框架或被限制在孤立的数据系统和应用程序中时,它们的协作能力就会受到限制 [2]。为了充分释放智能体 AI 的潜力,实现它们之间的无缝互操作性至关重要。谷歌最近发布并开源了协议,旨在解决这一挑战 [2]。原创 2025-04-14 23:29:02 · 1386 阅读 · 0 评论 -
【LLM】构建和使用MCP Server:理解python-sdk与fastmcp
MCP协议使用原创 2025-04-08 11:22:25 · 2277 阅读 · 0 评论 -
【LLM】使用vLLM部署Phi-4-multimodal-instruct的实战指南
Phi-4-multimodal-instruct是微软开发的多模态指令跟随模型,支持文本、图像和音频的联合输入。:可同时处理文本+图像/音频输入,实现跨模态理解:基于Instruct版本设计,更适合对话式AI和任务导向型应用:通过vLLM的分页注意力(PagedAttention)和连续批处理技术,推理吞吐量可达原生Transformers的10倍以上(参考。原创 2025-03-26 21:03:55 · 2170 阅读 · 0 评论 -
【MCP】如何解决duckduckgo MCP 命令执行错误
MCP异常处理 duckduckgo原创 2025-03-21 10:33:48 · 662 阅读 · 0 评论 -
【LLM】如何使用DeepSeek推理模型(deepseek-reasoner)
DeepSeek推理模型()是DeepSeek推出的一款具备深度推理能力的AI模型。其核心优势在于通过**Chain of Thought(CoT,思维链)**机制,在生成最终答案前先进行逻辑推理过程的详细推导,从而显著提升回答的准确性和可解释性。返回**推理过程(reasoning_content)和最终答案(content)**两个独立输出支持多轮对话场景下的上下文管理最大支持64K上下文长度DeepSeek推理模型通过独特的CoT机制,为开发者提供了可解释性强、逻辑清晰的AI解决方案。原创 2025-03-20 11:13:58 · 2985 阅读 · 0 评论
分享