
大模型
文章平均质量分 92
大模型
木亦汐丫
这个作者很懒,什么都没留下…
展开
-
【大模型系列篇】大模型基建工程:基于 FastAPI 自动构建 SSE MCP 服务器
🔥FastAPI 基于 Starlette 和 Uvicorn,采用异步编程模型,可轻松处理高并发请求,尤其适合 MCP 场景下大模型与外部系统的实时交互需求,其性能接近 Node.js 和 Go,在数据库查询、文件操作等 I/O 密集型任务中表现卓越。这种架构既保留了 FastAPI 的高效开发体验,又通过 MCP 协议实现了与前沿 AI 技术的无缝对接,同时结合 Docker 和 Kubernetes 实现弹性伸缩部署,可以快速应对大模型调用量的突发增长,是构建下一代智能系统的理想选择。原创 2025-04-02 14:18:32 · 638 阅读 · 0 评论 -
【大模型系列篇】构建智能体MCP客户端:完成大模型与MCP服务端能力集成与最小闭环验证
上期我们通过fastmcp开发了Python版本的天气预报MCP Server,同时使用了MCP Inspector工具调试了天气预报接口,详见《使用Python开发MCP Server及Inspector工具调试》,本期我们构建MPC客户端来调用上期部署的天气预报MCP服务端,同时接入大模型对话功能。原创 2025-03-27 16:21:09 · 956 阅读 · 0 评论 -
【大模型系列篇】使用Python开发MCP Server及Inspector工具调试
基于fastmcp开发python版本weather mcp server, 并通过MCP Inspector连接进行调试。MCP Inspector 是专为 Model Context Protocol(MCP)服务器设计的交互式调试工具,支持开发者通过多种方式快速测试与优化服务端功能原创 2025-03-26 18:15:12 · 1259 阅读 · 0 评论 -
【大模型系列篇】深剖AutoGen多智能体协作框架发展脉络,快速入门简单示例
AutoGen 起初由微软研究院团队开发,最初定位为多智能体协作框架 ,通过多个 AI 智能体(Agent)的对话协作解决复杂任务。提供底层工具链,支持自定义智能体、任务分解、对话编排等,开发者可通过少量代码实现复杂流程。2024年9月,AutoGen 核心团队与微软分道扬镳,创建了原项目的GH分支。最终,在11月,他们成立了新的 AG2 GitHub 组织和新的仓库,同时接管了 PiPy 的autogen和pyautogen包。原创 2025-03-26 11:16:25 · 681 阅读 · 0 评论 -
【大模型系列篇】深度解锁MCP模型上下文协议,赋能大模型玩转智能体
MCP(Model Context Protocol)是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。可以将 MCP 想象成 AI 应用程序的 USB-C 接口。就像 USB-C 为设备连接各种外设和配件提供了标准化方式一样,MCP 为 AI 模型连接不同的数据源和工具提供了标准化方式。该协议用于将AI助手连接到数据所在系统,包括内容库、业务工具和开发环境。其目的是帮助前沿模型生成更好、更相关的响应。原创 2025-03-20 17:44:42 · 1159 阅读 · 0 评论 -
【大模型系列篇】硅基智能开源数字人模型HeyGem.ai,开启数字人时刻
Heygem是一款专为Windows系统设计的全离线视频合成工具,它能够精确克隆您的外貌和声音,让您的形象数字化。您可以通过文字和语音驱动虚拟形象,进行视频制作。无需联网,保护隐私的同时,也能享受到便捷和高效的数字体验。核心功能精确外貌与声音克隆:运用先进的 AI 算法,高精度捕捉真人外貌特征,包括五官形状、面部轮廓等,构建逼真虚拟模型。同时,能精准克隆声音,捕捉并还原人声的细微特征,支持多种声音参数设置,可创造与原声高度相似的克隆效果。原创 2025-03-19 16:19:20 · 1362 阅读 · 0 评论 -
【大模型系列篇】Claude (Anthropic) 高效智能体构建指南
智能体(Agent)可以从多个角度进行定义。一些客户将智能体定义为完全自主的系统,这些系统能够在较长时间内独立运行,并使用各种工具来完成复杂任务。另一些客户则用这一术语来描述遵循预定义工作流程的规范性实现。在大语言模型(LLMs)领域取得成功,并不是要构建最复杂的系统,而是要构建适合需求的系统。从简单的提示开始,通过全面评估进行优化,只有在简单解决方案不足时,才考虑添加多步骤的智能体系统。原创 2025-03-12 17:23:15 · 1025 阅读 · 0 评论 -
【大模型系列篇】解锁谷歌AI Agent智能体技术白皮书,跨入智能体时代
智能体是一种应用程序,它能通过观察周围世界,并利用其可支配的工具来实现特定目标。智能体具备自主性,能够在没有人类干预的情况下独立行动,甚至在没有明确的人类指令集时,也能主动推理下一步如何实现最终目标。智能体是有自主能力的,只要提供了合适的目标,它们就能独立行动,无需人类干预;即使是模糊的人类指令,智能体 也可以推理出它接下来应该做什么,并采取行动,最终实现其目标。原创 2025-03-12 13:57:20 · 903 阅读 · 0 评论 -
【大模型系列篇】GRPO算法实战-复现Qwen2.5-1.5B-Instruct的DeepSeek-R1顿悟时刻
本文将快速上手实践DeepSeek提出的GRPO算法,并手动复现DeepSeek R1论文中的模型顿悟时刻,即通过GRPO训练,让模型诞生思考链。这也是整个DeepSeek R1模型训练的至关重要的环节,也是DeepSeek R1模型为大模型技术做出的卓越贡献。不同于传统的强化学习训练算法,或者常用的PPO算法,GRPO算法更加省时高效,通过暴力枚举策略、以及自我策略对比的方法快速提升模型在推理问题上制定策略的能力。这也是目前强化学习领域、被验证的最有效的提升大模型推理能力的方法。原创 2025-03-06 14:41:20 · 1735 阅读 · 0 评论 -
【大模型系列篇】国产开源大模型DeepSeek-V3技术报告解析
DeepSeek-V3是一款强大的混合专家(MoE)语言模型,总参数量为671B,每个Token激活37B参数。为了实现高效的推理和成本效益高的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE混合专家模型架构,这些架构已经在DeepSeek-V2中得到了充分验证。开创了无辅助损失的负载均衡策略,并设定了多Token预测训练目标(MTP)以增强性能。原创 2025-03-04 15:37:37 · 1031 阅读 · 0 评论 -
【大模型系列篇】DeepSeek开源周,解锁AI黑科技
DeepSeek开源周,解锁AI黑科技。day1:FlashMLA —— GPU推理加速器,day2:DeepEP —— 专家模型通信枢纽,day3:DeepGEMM —— 矩阵运算新标杆,day4:DualPipe & EPLB —— 并行计算的交响指挥,day5:3FS & Smallpond —— 数据洪流的超导管道。原创 2025-02-28 15:54:20 · 819 阅读 · 0 评论 -
【大模型系列篇】初探Unsloth微调DeepSeek-R1蒸馏模型
🔥🔥🔥 本文初探使用Unsloth微调DeepSeek-R1蒸馏模型DeepSeek-R1-Distill-Qwen-7B,使用了COT思维链数据进行Lora微调,微调后模型合并权重导出,并使用llama.cpp进行gguf格式转换和量化,通过ollama创建并加载模型,进行部署。原创 2025-02-27 17:48:51 · 1851 阅读 · 0 评论 -
【大模型系列篇】DeepSeek团队最新研究成果——原生稀疏注意力(NSA)
长上下文建模对于下一代语言模型至关重要,然而标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力为在保持模型能力的同时提高效率提供了一个有前景的方向。DeepSeek团队发布的最新研究成果——原生稀疏注意力(NSA)给出了答案。DeepSeek NSA 采用动态分层稀疏策略,将粗粒度的标记压缩与细粒度的标记选择相结合,以兼顾全局上下文感知和局部精度。NSA技术能够在不依赖堆算力的情况下,让大模型在处理长上下文、推理以及模型训练时,表现出高效率和高性能。原创 2025-02-25 11:53:23 · 884 阅读 · 0 评论 -
【大模型系列篇】如何解决DeepSeek-R1结构化输出问题,使用PydanticAl和DeepSeek构建结构化Agent
deepseek官方明确表示deepseek-r1目前不支持json输出/function call,可点击跳转至查看。从deepseek-r1论文末尾对未来工作的展望中,我们知道deepseek团队将在deepseek-r1的通用能力上继续探索加强,包括函数调用、多轮对话、复杂角色扮演和json输出等任务上的能力。如何解决DeepSeek-R1结构化输出问题,本文将使用PydanticAl和DeepSeek构建结构化Agent。原创 2025-02-24 16:27:25 · 1191 阅读 · 0 评论 -
【大模型系列篇】DeepSeek-R1如何通过强化学习有效提升大型语言模型的推理能力?
DeepSeek-R1-Zero:纯强化学习,直接在基础模型上应用强化学习,不使用任何 SFT 数据。探索 LLM 在纯 RL 环境下的自演化过程,使其自主发展推理能力。DeepSeek-R1:冷启动 + 多阶段训练使用少量高质量长链思维(CoT)数据进行冷启动,预热模型。进行面向推理的强化学习,提升模型在推理任务上的性能。使用拒绝采样和监督微调,进一步提升模型的综合能力。再次进行强化学习,使模型在所有场景下都表现良好。知识蒸馏:将 DeepSeek-R1 的推理能力蒸馏到更小的模型。原创 2025-02-20 17:29:34 · 882 阅读 · 0 评论 -
【大模型系列篇】动手实践基于DeepSeek-R1和Ollama的RAG系统
本篇我们一起聊一下如何借助当下最热的开源推理模型 DeepSeek R1 和轻量级本地 AI 模型运行框架 Ollama,构建功能强大的 RAG 系统。比较早之前我们整理过一篇关于通过部署Ollama和Open WebUI来搭建本地的问答系统,后续也基于Ollama、Dify来复刻一套私有化部署的智能问答系统。Ollama 作为一款轻量级开源框架,为在本地运行 AI 模型提供了便捷高效的解决方案,是构建本地 RAG 系统的关键一环。DeepSeek R1 在 RAG 系统构建领域脱颖而出。原创 2025-02-18 10:26:36 · 892 阅读 · 0 评论 -
【大模型系列篇】数字人音唇同步模型——腾讯开源MuseTalk
之前有一期我们体验了阿里开源的半身数字人项目EchoMimicV2,感兴趣的小伙伴可跳转至《AI半身数字人开箱体验——开源项目EchoMimicV2》,今天带大家来体验腾讯开源的数字人音唇同步模型MuseTalk。MuseTalk是一个实时高品质音频驱动的唇形同步模型,是在ft-mse-vae的潜在空间中进行训练,该模型:能够根据输入的音频修改未知的面部动作,面部区域大小为256 x 256。支持中文、英文和日文等多种语言的音频。原创 2025-01-14 11:14:32 · 2034 阅读 · 0 评论 -
【大模型系列篇】Xinference:让模型推理轻而易举
上篇我们通过Ollama和Dify复刻一套私有化部署的智能问答系统《构建企业级智能问答系统:Ollama + Dify + RAG 的完美组合》,我们在优化知识库需要配置Rerank模型时,发现了一个性能强大且功能全面的分布式推理框架Xorbits Inference(Xinference)。Xinference由国人开发的推理框架,可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xinference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。原创 2024-12-16 16:33:19 · 1960 阅读 · 0 评论 -
【大模型系列篇】Ollama、Dify和RAG:企业智能问答系统的黄金配方
比较早之前我们整理过一篇关于通过部署Ollama和Open WebUI来搭建本地的问答系统,大家可以再跳转《本地问答系统-部署Ollama、Open WebUI》来阅读内容,今天我们通过上篇介绍的Dify 《加速AI应用开发:Dify——从构思到生产的一站式解决方案》,来复刻一套私有化部署的智能问答系统。原创 2024-12-13 17:32:06 · 743 阅读 · 0 评论 -
【大模型系列篇】加速AI应用开发:Dify——从构思到生产的一站式解决方案
Dify 是一款开源的大语言模型(LLM) 应用开发平台,它融合了后端即服务(Backend as a Service, BaaS)和大语言模型运维(LLMOps)的理念,旨在使开发者能够快速搭建生产级的生成式AI应用。Dify 通过提供一系列工具和服务,简化了从概念到部署的整个过程,让即使是非技术人员也能参与到AI应用的定义和数据运营过程中。原创 2024-12-13 12:09:54 · 2275 阅读 · 0 评论 -
【大模型系列篇】AI半身数字人开箱体验——开源项目EchoMimicV2
EchoMimicV2是阿里蚂蚁集团推出的半身人体AI数字人项目,基于参考图片、音频剪辑和手部姿势序列生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2在前代EchoMimicV1生成逼真人头动画的基础上,效果得到进一步提升,现在能生成完整的数字人半身动画,实现从中英文语音到动作的无缝转换。该项目采用音频-姿势动态协调策略,包括姿势采样和音频扩散,增强细节表现力并减少条件冗余。并使用头部局部注意力技术整合头部数据,设计特定阶段去噪损失优化动画质量。原创 2024-12-11 16:10:48 · 1957 阅读 · 0 评论 -
【大模型系列篇】LLaMA-Factory大模型微调实践 - 从零开始
前一次我们使用了NVIDIA TensorRT-LLM 大模型推理框架对智谱chatglm3-6b模型格式进行了转换和量化压缩,并成功部署了推理服务。今天我们来实践如何通过LLaMA-Factory对大模型进行Lora微调。首先我们来认识一下,它是一个在 GitHub 上开源的项目,为大语言模型(LLM)的训练、微调和部署提供了一个简便且高效的框架。该项目旨在简化和加速 LLaMA以及其他多种大型语言模型的微调过程,使得即使是非专业用户也能轻松上手。功能介绍。原创 2024-12-09 18:05:02 · 1737 阅读 · 1 评论 -
【大模型系列篇】动手部署实践国产文生图模型-腾讯混元DiT
首个中英双语DiT架构, 混元-DiT,高性能细粒度中文理解-多分辨率扩散Transformer模型。腾讯提出的,一个,此模型具有中英文细粒度理解能力。为了构建混元DiT,精心设计了Transformer结构、文本编码器和位置编码。腾讯构建了完整的数据管道,用于更新和评估数据,为模型优化迭代提供帮助。为了实现细粒度的文本理解,腾讯训练了多模态大语言模型来优化图像的文本描述。最终,混元DiT能够与用户进行多轮对话,根据上下文生成并完善图像。原创 2024-09-30 10:07:04 · 1674 阅读 · 6 评论 -
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架
Vanna 使用一种称为 LLM(大型语言模型)的生成式人工智能。简而言之,这些模型是在大量数据(包括一堆在线可用的 SQL 查询)上进行训练的,并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna 优化了提示(通过向量数据库使用嵌入搜索)并微调 LLM 模型以生成更好的 SQL。Vanna 可以使用和试验许多不同的LLM,以获得最准确的结果。原创 2024-07-30 18:05:16 · 4560 阅读 · 0 评论 -
【大模型系列篇】本地问答系统-部署Ollama、Open WebUI
部署本地大模型,结合Ollama、Open WebUI以及本地RAG(Retrieval-Augmented Generation)可以为用户提供一个强大的本地知识库和交互式对话系统。原创 2024-07-25 11:54:03 · 1821 阅读 · 0 评论 -
【大模型系列篇】文生图stable-diffusion-webui安装入门教程
这里不详细叙述Python环境准备工作,可以安装Anaconda创建一个环境。如果下载慢,可以选择一个国内的git托管平台,搜索到克隆项目进行加速。原创 2024-06-28 16:33:10 · 521 阅读 · 0 评论 -
【大模型系列篇】NVIDIA TensorRT-LLM 大模型推理框架实践
TensorRT-LLM是NVIDIA推出的一个开源库,用于定义、优化和执行大型语言模型(LLM)在生产环境的推理。该库是基于 TensorRT 深度学习编译框架来构建、编译并执行计算图,并借鉴了许多 FastTransformer 中高效的 Kernels 实现,然后利用 NCCL 完成设备之间的通讯。原创 2024-11-28 15:44:24 · 4014 阅读 · 0 评论 -
【大模型系列篇】GPU资源容器化访问使用指南
在当今的高性能计算和机器学习领域,GPU(图形处理单元)因其卓越的并行计算能力而扮演着至关重要的角色。随着容器化技术如 Docker 的普及,越来越多的数据科学家和开发者选择将他们的应用和工作负载封装到 Docker 容器中,以实现更便捷的开发、测试和部署流程。然而,默认情况下,Docker 容器是无法自动识别或利用宿主机上的 NVIDIA GPU 资源的。这一限制可能会导致那些依赖于 GPU 加速的工作负载性能大幅下降,甚至完全无法运行。原创 2024-12-09 16:04:57 · 1165 阅读 · 0 评论 -
【大模型系列篇】大语言模型的前世今生
从历史上来看,自然语言处理的研究范式变化是从规则到统计,从统计机器学习到基于神经网络的深度学习,这同时也是语言模型发展的历史。要了解语言模型的发展历史,首先我们需要认识什么是语言模型。原创 2024-08-05 10:48:51 · 1286 阅读 · 0 评论 -
【大模型系列篇】大语言模型(LLM)概览
大语言模型(LLM,Large Language Model),是一种旨在理解和生成人类语言的人工智能模型。LLM 通常指包含数百亿(或更多)参数的语言模型,它们在海量的文本数据上进行训练,从而获得对语言深层次的理解。目前,国外的知名 LLM 有 GPT-3.5、GPT-4、Gemini、Claude 和 LLaMA 等,国内的有文心一言、讯飞星火、通义千问、ChatGLM、百川等。为了探索性能的极限,许多研究人员开始训练越来越庞大的语言模型,例如拥有1750 亿参数的GPT-3和5400 亿参数的。原创 2024-08-22 06:00:00 · 1276 阅读 · 0 评论 -
【大模型系列篇】人工智能与智能计算的发展
智能世界与物理世界一样,都是具有巨大复杂度的研究对象,AI大模型仍然是通过数据驱动等研究宏观世界的方法,提高机器的智能水平,对智能宏观世界理解并不够,直接到神经系统微观世界寻找答案是困难的。智能计算时代,除了互联网以外,还有数据基础设施,支撑各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供与ChatGPT类似的大模型智能服务,最终实现有计算的地方就有AI智能。更先进的制造工艺可以使CPU与GPU内部集成更多的晶体管,使处理器具有更多的功能以及更高的性能,面积更小,成本更低等。原创 2024-08-22 14:15:19 · 1812 阅读 · 0 评论 -
【大模型系列篇】论文解读:Transformer - Attention Is All You Need
当今大模型初学者必读的一篇论文,已经有不少业内大佬都翻译解读过这篇论文,此处仅作为自己学习的记录。该论文是由谷歌机器翻译团队于2017年发表在NIPS ,提出了一个只基于attention的结构来处理序列模型相关的问题,比如机器翻译。相比传统的CNN与RNN来作为Encoder-Decoder的模型,谷歌这个模型摒弃了固有的方式,并没有使用任何的CNN或者RNN的结构,该模型可以高度并行的工作,相比以前串行并且无法叠加多层、效率低的问题。原创 2024-08-09 17:24:26 · 1055 阅读 · 0 评论 -
【大模型系列篇】Transformers综述--邱锡鹏
Transformer是一种著名的深度学习模型,已在自然语言处理(NLP)、计算机视觉(CV)和语音处理等多个领域得到广泛应用。Transformer 最初被提出作为一种序列到序列模型用于机器翻译。后来的研究表明,基于 Transformer 的预训练模型(PTMs) 可以在各种任务上实现最先进的性能。因此,Transformer 已成为 NLP 尤其是 PTMs 的首选架构。原创 2024-08-14 18:00:31 · 1309 阅读 · 0 评论 -
【大模型系列篇】Transformer代码解读-从零开始实现
Transformer代码解读 - 来自哈佛大学NLP实验室关于Transformer的一篇开源博客The Annotated Transformer原创 2024-08-21 06:00:00 · 4187 阅读 · 0 评论 -
【大模型系列篇】词向量 - 从Word2Vec到ELMo
词向量(又叫词嵌入)已经成为NLP领域各种任务的必备一步,而且随着BERT、GPT等预训练模型的发展,词向量演变为知识表示方法,但其本质思想不变。生成词向量的方法有很多种,本文重点回顾Word2Vec到ELMo。主要讲了词向量,神经网络语言模型Word2Vec两种模型、GloVe、ELMo动态词向量模型。原创 2024-08-27 14:12:46 · 2217 阅读 · 0 评论 -
【大模型系列篇】预训练模型:BERT & GPT
BERT 的目标是创建一种语言模型,可以理解句子中单词的上下文和含义,同时考虑到它前后出现的单词。BERT和GPT是两种基于Transformer架构的预训练模型,BERT侧重于理解句子中的上下文和含义,适合词语级别的任务;GPT的单向语言模型采用了经过修改后的Decoder模块, Decoder采用了look-ahead mask, 只能看到context before上文信息, 未来的信息都被mask掉了.缺点:模型过于庞大,参数量太多,需要的数据和算力要求过高,训练好的模型应用场景要求高。原创 2024-08-27 18:31:53 · 1519 阅读 · 0 评论 -
【大模型系列篇】大语言模型架构分类和对比
在预训练语言模型时代,自然语言处理领域广泛采用了预训练(Pre-training) + 微调(SFT)的范式, 并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-decoder)架构的大规模预训练语言模型。值得注意的是,学术界所提到解码器架构时,通常指的都是因果解码器架构。与编码器-解码器不同的是,前缀解码器在编码和解码过程中是共享参数的,并没有划分为独立的解码器和编码器。原创 2024-08-30 06:00:00 · 1628 阅读 · 0 评论 -
【大模型系列篇】Transformer模型优化技巧和选择
自从 Transformer 模型发布以来,研究人员针对训练稳定性、性能与计算效率提升等方面提出了多种改进方法。包括归一化、位置编码、激活函数和注意力机制。为了增强模型的训练稳定性,建议采用前置的RMSNorm作为层归一化方法。同时在选择激活函数时,为了获得更优的模型性能,可以优先考虑使用 SwiGLU 或 GeGLU。而对于位置编码,可以优先选择 RoPE 或者 ALiBi,这两种位置编码方法在建模长序列数据时通常能够具有较好的性能。至于注意力机制的选择需要综合模型的效率和性能两方面来考量。原创 2024-08-30 06:00:00 · 1467 阅读 · 0 评论