- 博客(9)
- 收藏
- 关注
原创 mcp-python-sdk client客户端创建会话流程
摘要:stdio_client是一个异步上下文管理器,用于创建与子进程的标准输入/输出通信。它通过生成子进程并建立内存对象流来处理JSON-RPC消息交换。主要功能包括:1) 创建子进程并设置通信流;2) 启动读写任务组分别处理stdout解析和stdin写入;3) 实现优雅关闭流程,包括关闭输入流、等待进程终止、强制终止等步骤。该函数支持平台兼容的进程创建和终止,并包含错误处理机制。
2025-10-25 19:40:54
188
原创 Qwen2.5-VL技术报告(AI读论文)
Qwen团队发布视觉语言旗舰模型Qwen2.5-VL,在视觉识别、对象定位、文档解析和长视频理解等方面显著提升。模型创新性地采用动态分辨率ViT和绝对时间编码技术,能处理不同尺寸图像和数小时视频,保持原始分辨率的同时降低计算开销。提供三种规格模型(72B/7B/3B),其中72B版本在文档图表理解上与GPT-4o等顶尖模型相当,小模型在边缘设备表现优异。实验显示该模型在视觉问答、OCR、空间理解等多项任务中表现突出,为多模态智能系统发展提供了新基准。
2025-07-09 21:08:22
680
原创 Qwen2.5技术报告(AI读论文)
Qwen2.5系列语言模型通过预训练与强化学习两阶段优化,采用GQA、RoPE等创新架构,显著提升了长文本生成、数学推理等能力。该系列提供0.5B-72B多种参数配置及量化版本,在基准测试中超越同类模型,兼具高性能与成本效益。实验表明其在自然语言理解、编程等任务表现优异,特别擅长超长上下文处理。未来将探索模型泛化能力提升及多领域应用扩展。
2025-07-09 20:56:03
1031
原创 Qwen2技术报告(AI读论文)
阿里巴巴推出Qwen2系列大模型,包括0.5亿至72亿参数的密集型和混合专家模型。该系列在多项基准测试中表现优异,超越多数公开模型,72B旗舰版在语言理解、编程、数学等任务中表现突出。Qwen2具备30种语言处理能力,并开源了模型权重和支持代码。研究采用了改进的Transformer架构、高质量多语言数据集及长文本处理技术,通过监督微调和强化学习提升性能。实验显示Qwen2在基础能力、人类偏好和长文本处理方面均有优势,为未来更复杂的NLP任务奠定了基础。
2025-07-09 20:41:17
805
原创 vLLM&TensorRT-LLM&SGLang流式输出原理比较
vllm sglang tensorrt-llm这些主流的大模型推理框架,流式输出(逐字输出)分别是怎么实现的?对比分析原理。
2025-07-04 23:50:40
791
原创 DeepSeek理解下的32B大模型显存占用
在推理场景,fp16量化的32b llm大模型显存多少,如果采用tensor parallel策略,分布在两张显卡,每个显卡显存占用多少?
2025-07-04 22:27:51
2280
原创 Pybind11快速入门指南
Pybind11 是一个轻量级的 C++ 库,用于将 C++ 代码绑定到 Python,从而在 Python 中调用高性能的 C++ 代码。本文介绍了如何快速入门使用 Pybind11,包括获取 Pybind11 的两种方式:作为子模块引入或通过 PyPI 安装。接着,文章详细讲解了如何将 C++ 函数、变量、结构体和类绑定到 Python 模块中。
2025-05-21 09:05:31
1887
Qwen2技术报告总结2系列
2025-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅