大模型开发
文章平均质量分 80
夫唯不争,故无尤也
嵌入式,C语言
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Ubuntu系统中vscode无法连接Codex插件
摘要:在VS Code中使用OpenAI的Codex插件时出现"Token exchange failed: token endpoint returned status 403 Forbidden"错误。用户使用Ubuntu 22.04系统,。最终通过切换模式为TUN虚拟网卡成功连接Codex服务。该方案适用于类似403权限拒绝的代理连接问题。原创 2025-12-04 00:28:13 · 315 阅读 · 0 评论 -
Transformer 原理系列(第二章)—— 一文彻底搞懂 Scaled Dot-Product Attention
本文深入解析Transformer中的缩放点积注意力机制(Scaled Dot-Product Attention)。首先通过例句说明模型如何判断"谁应该被关注",指出注意力机制需要让每个token自动选择相关token。文章详细介绍了Q(Query)、K(Key)、V(Value)三个核心角色及其作用,阐述了从计算原始相关性分数、缩放处理避免数值爆炸,到Softmax归一化为权重分布,最后加权求和V值输出的完整流程。通过与传统RNN/CNN对比,突出了自注意力机制在建立长距离依赖、并行原创 2025-12-01 21:56:49 · 685 阅读 · 0 评论 -
Transformer 原理系列(第一章)—— 从序列相关性出发,理解注意力机制的本质
本文从序列数据的本质出发,系统梳理了序列建模的发展历程。首先指出序列数据的核心特征是样本间的依赖关系,传统方法如ARIMA、RNN/LSTM和CNN都是通过不同形式的加权求和来建模这种关系,但都存在局限性。文章重点阐述了注意力机制的突破性意义:通过动态计算样本间的语义相关性(向量相似度)来确定权重,使模型能够全局捕捉任意位置样本间的关系。最后介绍了Transformer的核心组件Q/K/V矩阵,它们将相关性计算、权重归一化和信息聚合三个步骤系统化,解决了传统模型在长距离依赖、动态权重和并行计算方面的痛点,原创 2025-12-01 21:42:10 · 894 阅读 · 0 评论 -
梯度累计原理:数学可行性与PyTorch实现
摘要:梯度累计通过多次前向-反向传播将小batch梯度累加,模拟大batch训练效果。数学上可行是因为总梯度等于各batch梯度之和(∂L/∂w=∑∂Li/∂w)。PyTorch的backward()会自动累加梯度到.grad属性,需手动zero_grad清除。流程是:累计N次梯度后执行一次optimizer.step()更新参数。本质是利用梯度可加性,将多个小batch的梯度汇总后统一更新,解决显存不足时batch_size过小的问题。(149字)原创 2025-11-23 20:45:43 · 971 阅读 · 0 评论 -
PyTorch 的维度变形一站式入门
PyTorch维度操作指南摘要 本文系统介绍了PyTorch中的5类维度操作:1)形状变换(reshape/view/squeeze/unsqueeze)改变张量形状但不改变数据;2)广播扩展(expand/expand_as)实现内存高效的维度扩展;3)维度重排(transpose/permute)用于交换维度顺序,是多头注意力的核心操作;4)拼接复制(cat/stack/repeat)实现张量连接与复制;5)高级操作(flatten/unflatten)用于维度展平与重建。原创 2025-11-23 19:12:31 · 1287 阅读 · 0 评论 -
torch.nn.Embedding详解:为什么要用Embedding,Embedding怎么用,Embedding的底层源码
本文深入解析了深度学习中的Embedding技术,主要涵盖三方面内容:首先阐述了Embedding的价值,它能将离散词ID转换为可训练的连续向量,解决传统编码单一性和不可训练的问题;其次介绍了PyTorch中nn.Embedding的使用方法,包括参数设置和输入输出格式转换;最后从源码层面揭示了Embedding的底层实现机制,指出其本质是一个可训练的查找表(vocab_size×embedding_dim矩阵),通过索引查表实现词向量映射,并解释了梯度更新的稀疏特性。文章从原理到实践全面剖析了Embedd原创 2025-11-09 19:28:31 · 964 阅读 · 0 评论 -
分布式训练一站式入门:DP,DDP,DeepSpeed Zero Stage1/2/3(数据并行篇)
本文系统介绍了分布式深度学习的三大并行训练方式:数据并行(DP/DDP)、模型并行和混合并行。重点分析了数据并行的演进过程,从早期DP方法到基于Ring-ALLReduce的DDP方法,再到DeepSpeed ZeRO的三个优化阶段。ZeRO通过逐步分片优化器状态、梯度和模型参数,实现了显存使用的线性扩展,最高可节省16倍显存。其中Stage1仅分片优化器状态,Stage2增加梯度分片,Stage3则实现参数的全分片。文章还对比了各种方法的通信机制和适用场景,为大规模模型训练提供了关键技术参考。原创 2025-11-04 20:10:12 · 998 阅读 · 0 评论 -
三大AI部署框架对比:本地权重与多模型协作实战
本文对比了三种本地大模型部署框架:Ollama、HuggingFace Transformers和vLLM。Ollama适合快速本地部署和隐私敏感场景,HuggingFace Transformers灵活适用于模型研发和原型阶段,而vLLM则是面向高吞吐生产环境优化的服务框架。对于多模型协作项目,建议初期使用Ollama快速启动,中期过渡到vLLM服务层,配合调度框架(如LangGraph)和状态存储(PostgreSQL)构建完整架构。开发阶段可利用HuggingFace进行模型探索,生产部署则优先考虑资原创 2025-11-01 20:06:00 · 928 阅读 · 0 评论 -
AI调度框架全解析:从通用到LLM专用
本文系统梳理了AI模型调度框架的三大类型:1)通用型调度框架(如RayServe、KServe)专注于多模型部署与负载均衡,适用于企业级AI服务平台;2)LLM专用框架(如LangChain、LangGraph)针对语言模型场景优化,支持对话状态管理和工具调用;3)企业级LLMOps框架(如vLLM、AzureAI)提供生产级监控和资源调度能力。各类框架在模型部署、任务编排、资源管理等方面各具优势,可根据具体应用场景(智能助手、自动化流程或大规模部署)选择合适的解决方案。原创 2025-11-01 19:49:59 · 641 阅读 · 0 评论 -
2025云栖大会参展记录
本文摘要:多领域AI应用蓬勃发展,以通义千问大模型为基座,衍生出微博内容理解、教育知识服务、智联招聘智能体、汽车行业模型等创新应用。阿里云、魔搭等技术平台提供全栈AI服务,同时涌现出人形机器人、医疗AI、智能营销等垂直领域解决方案。从内容生成到招聘流程优化,从教育赋能到产业升级,AI技术正深度融入各行业场景,推动智能化转型。原创 2025-09-27 10:41:15 · 883 阅读 · 0 评论 -
调用 vLLM API 时常用的三种请求头模板:普通请求、带鉴权请求、流式请求。
本文介绍了三种常见的API请求头配置方式:1)基础JSON请求,设置Content-Type和Accept头部;2)带鉴权的生产环境请求,增加Authorization头部;3)流式请求(SSE),将Accept改为text/event-stream。同时提供了一个推荐模板,可根据实际需求切换普通/流式模式和鉴权配置。建议开发者先用普通JSON请求测试后再调整其他配置。原创 2025-09-25 00:03:26 · 327 阅读 · 0 评论 -
使用vLLM部署大模型,如何调用本地部署大模型的API路由
摘要:vLLM本地部署后,可通过指令启动API服务并访问http://localhost:8000进行交互。支持两种调用方式:1)命令行方式,使用curl发送GET/POST请求获取模型信息或生成对话;2)Python脚本方式,通过requests库调用ChatCompletions接口,兼容OpenAI风格。两种方法均需指定模型名称、消息格式和生成参数,支持调整temperature等参数控制输出效果。原创 2025-09-25 00:13:06 · 2589 阅读 · 0 评论 -
vLLM API 服务启动日志详解
本文解析了vLLM API服务启动日志的功能。当执行vLLM服务启动命令后,终端会输出服务地址(http://0.0.0.0:8000)和可用API路由列表,包括系统路由、基础功能、大模型接口等。日志显示服务进程ID(2520)和启动完成状态,表明API服务已就绪,可通过指定端口访问交互式文档或调用各类模型接口。这些日志信息帮助用户了解服务运行状态和可用功能。原创 2025-09-24 23:40:14 · 1876 阅读 · 0 评论 -
VLLm中函数SamplingParams(top_p=top_p, top_k=top_k, min_p=min_p)中top_p,top_k,min_p详解
大语言模型生成文本时,top_p、top_k和min_p是控制输出质量的采样参数。top_k固定选择概率最高的前k个词,简单直接但可能模式化;top_p动态选择累积概率达阈值的最小候选集,平衡质量与多样性;min_p通过相对概率阈值过滤低概率词,提高稳定性。三者常组合使用,如top_p=0.9+top_k=40,在保证质量的同时增加多样性,min_p可进一步过滤低质量候选词。原创 2025-09-24 23:31:02 · 721 阅读 · 0 评论 -
如何调用huggingface模型中Qwen3-0.6B模型搭建本地大模型助手(单次对话与多轮对话版),并且单样本调用和batch方式调用的对比
本文介绍了如何使用HuggingFace中的Qwen3-0.6B模型构建对话系统。主要内容包括:1)单次调用模型的方法,包括模型导入、提示词模板构建、tokenize处理和结果解码;2)构建支持多轮对话的QwenChatbot类,实现对话历史记录和响应生成;3)批量处理方法,通过设置batch_size提高处理效率,包括批量消息构建、模板转换、模型生成和结果解析。特别说明了在批量处理时需要使用padding和truncation参数处理不同长度文本,以及如何从输出中提取生成内容。原创 2025-09-22 23:37:22 · 1687 阅读 · 0 评论 -
requests 调用本地大模型 API 的常见例子
本文介绍了使用requests库调用本地大模型API的几种常见方式。主要包括:1)通用REST API调用,发送提示词获取响应;2)兼容OpenAI风格的API调用;3)带超时和错误处理的稳健调用;4)批量处理文本的示例。这些示例适用于不同的本地模型服务框架(如FastAPI、Ollama等),开发者可根据API格式选择对应调用方式,实现文本生成、翻译等功能。原创 2025-09-21 20:48:46 · 449 阅读 · 0 评论
分享