
深度学习机器学习
文章平均质量分 66
深度学习技术的方案提供
优惠券已抵扣
余额抵扣
还需支付
¥79.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
XD742971636
https://www.dong-blog.fun/
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
top_k 和 top_p这两个请求参数什么意思
对于需要一致性答案的场景(如客服、技术文档等),这样的低值设置会让模型给出更稳定、可预测的回答。原创 2025-08-10 10:27:26 · 50 阅读 · 0 评论 -
LLaMA-Factory Out-of-memory / 显存溢出 qwen2vl
文章摘要:显存溢出(OOM)问题源于模型本身占用和计算动态占用。解决方法包括:1)调整cutoff_len减少token量,注意预处理阶段就已确定;2)减小batch_size;3)使用DeepSpeed ZeRO等技术,但会降低速度且需足够内存;4)对Qwen2-VL等模型需手动处理过长token数据。关键要关注计算时的动态显存占用,通过参数优化和缓存机制可有效解决OOM问题。预处理阶段的cutoff_len设置比训练时调整更有效。原创 2025-08-08 10:52:43 · 68 阅读 · 0 评论 -
qwen2vl ValueError: Image features and image tokens do not match: tokens: 568, features 600
本文介绍了一个用于计算多模态数据集中样本token数量的Python工具,特别针对包含文本和图像的Qwen2-VL模型数据集。原创 2025-08-08 09:52:54 · 65 阅读 · 0 评论 -
【MCP使用】大模型MCP详细底层逻辑讲解,彻底学会MCP
我会将一些MCP的概念,然后讲解底层逻辑,最后自己构建一个MCP客户端,让你彻底了解MCP的工作机制。原创 2025-06-11 01:14:40 · 218 阅读 · 0 评论 -
【深度学习】大模型MCP工作流原理介绍、教你编写MCP(1)
MCP(Model Context Protocol)是一个开放协议,旨在标准化AI应用与外部数据源/工具间的连接。其核心组件包括MCP Server(提供数据/工具访问)、MCP Client(AI应用连接端)和传输机制。通过定义Tools(可调用功能)和Resources(可读数据),MCP实现了AI模型与外部服务的交互。典型工作流程为:用户提问→AI识别工具需求→MCP Client发起请求→MCP Server执行并返回结果→AI整合答复。该协议采用类似USB-C的统一连接思路,支持多种传输方式和提原创 2025-06-03 10:28:02 · 1112 阅读 · 0 评论 -
【知识点】openai请求参数如何转为大模型的字符串?
请求openai的时候,给了一些请求参数,是如何转为字符串?先看看之前这篇文章:下载Qwen/Qwen3-32B,然后在这个镜像里做实验。more。原创 2025-06-03 22:55:24 · 293 阅读 · 0 评论 -
【知识点】Qwen3对话模板,大模型工具调用方法,什么是对话模板?
对话模板是用于格式化多轮对话的预定义规则,将结构化对话数据转换为模型可处理的字符串。文章展示了一个基于Jinja2的对话模板示例,该模板通过条件判断和循环处理不同角色(系统、用户、助手、工具)的消息内容,并支持工具调用功能。模板核心功能包括:处理系统初始提示、管理工具调用签名、格式化用户查询、解析助手推理内容以及整合工具响应。特别值得注意的是模板对工具调用的处理方式,包括参数JSON格式化和XML标签封装。该模板设计支持多轮对话和复杂推理场景,是连接原始对话数据与大语言模型的格式化引擎。原创 2025-06-03 17:59:08 · 271 阅读 · 0 评论 -
【实战】weclone 数字分身聊天实战演示
文章摘要 本文介绍了一个创建个人数字分身的完整流程,主要包括三个步骤:1) 使用PyWxDump工具提取微信聊天记录并导出为CSV格式;2) 借助Qwen大模型清洗数据,将原始对话转换为适合训练的格式;3) 通过LLaMA-Factory框架对Qwen模型进行全量微调或LoRA微调,最终部署为个人数字分身。文章详细说明了数据提取、清洗的具体方法,以及模型训练和部署的技术细节,包括Docker环境配置和参数设置。该项目旨在让用户能够训练出具有个人语言风格的AI助手。原创 2025-06-01 12:54:14 · 158 阅读 · 1 评论 -
【深度学习】sglang 的部署参数详解
SGLang是UC Berkeley开发的高性能大语言模型推理框架,支持结构化生成和多模态应用。本文详解其部署参数配置,包括:1)并行化参数(张量/流水线/数据并行),2)内存优化(分块处理、调度策略),3)后端优化(注意力/采样/语法后端选择),4)量化选项(AWQ/GPTQ等),5)CUDA高级优化。重点比较了不同并行策略的适用场景,其中张量并行(TP)是推荐的首选方案。参数设置需平衡显存占用、吞吐量和延迟,如max-total-tokens控制总内存池容量,而chunked-prefill-size优原创 2025-05-28 11:22:10 · 393 阅读 · 0 评论 -
【知识点】语义分割任务中有哪些损失函数?
本文详细介绍了语义分割任务中常用的损失函数 ,并重点加入了边界感知损失(Boundary Loss) ,以解决图像分割中常见的边界模糊问题。原创 2025-05-16 11:23:56 · 117 阅读 · 0 评论 -
【知识点】语义分割任务的模型输出形状是什么样?
在PyTorch中,语义分割模型的输出形状通常为 (N, C, H, W),其中 N 表示批处理大小,C 是类别数量,H 和 W 分别是输出特征图的高度和宽度。例如,对于4张512x512的图像和10类语义分割任务,输出形状为 (4, 10, 512, 512)。模型输出的是每个像素的类别得分(logits),可以通过 softmax 转换为概率分布,再通过 argmax 得到每个像素的预测类别。真实标签的格式为 (N, H, W),表示每个像素的类别编号。模型输出可以通过颜色映射表可视化,生成彩色图像以展原创 2025-05-16 11:16:09 · 101 阅读 · 0 评论 -
【知识点】大模型面试题汇总(持续更新)
Decoder 像一名“提问者”,Encoder 像一本“百科全书”。Cross-Attention 是 Decoder 根据当前生成状态(Query),从百科全书(K/V)中检索相关内容的过程。在问题17里有一句代码:也是多头注意力qkv那一套,只不过这里encoder出来的百科全书作为KV了。tgt 是来自decoder的。这就是交叉注意力。# Step 2: Cross-Attention(Query 来自 decoder,K/V 来自 encoder)原创 2025-05-15 17:30:18 · 167 阅读 · 0 评论 -
【知识点】GPT模型自回归生成Token的详细过程
Transformer的自回归生成过程是一个逐步展开的动态计算过程,主要包括初始化阶段和逐步生成阶段。在初始化阶段,输入准备和内存预分配为后续生成奠定基础。逐步生成阶段通过计算查询、键和值(QKV),更新缓存,进行因果注意力计算,并预测下一个token。关键机制如KV缓存和动态掩码确保了计算的高效性和严格因果性。此外,不同的概率采样方法(如贪心搜索、温度采样和Top-p采样)影响生成结果的确定性和多样性。整个过程严格遵循自回归性质,通过并行计算优化实现高效生成。原创 2025-05-15 13:27:02 · 131 阅读 · 0 评论 -
【知识点】transformer的qkv计算如何建立上下文感知?
Transformer自注意力机制通过动态计算词与词之间的关系,克服了传统序列模型的局限性。以句子"The cat sat on the mat"为例,首先将每个词映射为向量并添加位置编码,生成查询(Q)、键(K)和值(V)矩阵。通过点积计算注意力分数,经过缩放和Softmax归一化后,加权聚合值向量,生成每个词的上下文感知表示。多头注意力机制进一步扩展了模型的表达能力,允许同时关注不同的语义子空间。与传统RNN相比,Transformer能够直接建模长距离依赖,且支持并行计算,显著提升原创 2025-05-15 10:50:32 · 74 阅读 · 0 评论 -
【知识点】Transformer自注意力计算为什么要除以√q_k 进行Scaling?
在 Scaled Dot-Product Attention 中,除以 $\sqrt{d_k}$ 的核心目的是通过调整点积结果的方差为1,避免输入到 softmax 的值过大导致梯度消失。假设查询向量 $Q$ 和键向量 $K$ 的每个元素是独立同分布的随机变量,均值为 0,方差为 1,点积 $Q \cdot K$ 的方差为 $d_k$。将点积结果除以 $\sqrt{d_k}$ 后,方差被归一化为 1。这种缩放操作不仅避免了 softmax 输入值过大导致的梯度消失问题,还使得不同维度的注意力分数分布一致,从原创 2025-05-15 09:59:04 · 99 阅读 · 0 评论 -
VLM Qwen2.5VL GRPO训练微调 EasyR1 多机多卡训练(2)
脚本首先设置分布式训练参数(如节点数、GPU数量、主节点IP等),然后根据当前节点的RANK值区分主节点和工作节点:主节点启动Ray head服务并等待所有工作节点连接,工作节点则连接到主节点。当集群就绪后,主节点会启动训练脚本(qwen2_5_vl_7b_grpo_train.sh),同时集成了SwanLab实验跟踪工具,支持云端和本地训练日志记录。verl 依托于 Ray, 所以多机多卡使用需要使用Ray进行训练,Ray和torchrun的原理也差不多。原创 2025-05-02 16:09:02 · 515 阅读 · 0 评论 -
VLM-R1 训练:max_anyres_num 参数与多图处理机制解析
通过这次深入分析,我们了解到是控制 InternVL 图像分块数量、平衡细节与资源消耗的关键参数,合理调整它可以有效缓解显存压力。同时,我们也确认了 VLM-R1 框架具备完善的多图像样本处理能力。希望这些信息能帮助大家在训练自己的多模态模型时,更加得心应手!原创 2025-05-01 17:06:42 · 174 阅读 · 0 评论 -
如何强制关闭Qwen/Qwen3的思考功能
也就相当于enable_thinking参数你传不传这里都是默认enable_thinking就是false,模板永远给空。在之前的文章里,教学了部署和请求的时候去给参数从而关闭thinking:https://www.dong-blog.fun/post/2053。翻译出来就是,如果enable_thinking被定义了,而且enable_thinking参数是false,那么think直接给空。但是还是麻烦,能不能默认就把这个thinking给关闭,从代码层面直接关闭?原创 2025-04-30 11:45:36 · 3977 阅读 · 1 评论 -
InternVL 3的技术深度分析,代码与原理
我将对InternVL 3进行更深入的技术分析,结合代码和公式来详细阐述其核心技术、训练方法和推理部署。原创 2025-04-18 18:54:04 · 363 阅读 · 0 评论 -
vllm 离线推理Qwen2.5-VL-Instruct,API部署,支持max_pixels
使用这里的最新镜像:启动环境more。原创 2025-03-24 11:11:05 · 479 阅读 · 0 评论 -
【LLM】由LayerNorm向RMSNorm
归一化层作为深度神经网络的核心组件,直接影响模型的训练动力学与泛化能力。本文从数学推导与计算图视角系统解析LayerNorm与RMSNorm的算法差异,结合Transformer架构演进规律,揭示大语言模型时代归一化技术的工程选择策略。通过理论分析与实验数据交叉验证,阐明RMSNorm在百亿参数级模型中的性能优势及其物理意义。more。原创 2025-02-13 17:03:00 · 133 阅读 · 0 评论 -
自抗扰控制(ADRC)代码,带宽法,控制倒立摆
自抗扰控制(Active Disturbance Rejection Control)由韩京清教授提出,其核心思想是将系统内外部的扰动统一视为"总扰动",通过扩张状态观测器实时估计并补偿。:生成过渡过程并提取微分信号:实时估计系统状态和总扰动:综合误差生成控制量。原创 2025-02-13 15:12:43 · 458 阅读 · 0 评论 -
pix2pix mmgeneration通用场景黑白图片上色模型训练,Docker
more。原创 2025-01-17 15:07:59 · 377 阅读 · 0 评论 -
Android Java Ubuntu系统如何编译出 libopencv_java4.so
【代码】Android Java Ubuntu系统如何编译出 libopencv_java4.so。原创 2024-12-20 13:48:50 · 349 阅读 · 0 评论 -
背景移除,主体物抠图模型 RMBG-2.0:最佳一键去背景模型
准确性:高精度地分离前景和背景。效率:优化以实现快速推理时间。多功能性:在各种图像类别(包括通用股票图片、电子商务、游戏和广告内容)中表现良好。内容安全:确保生成的内容安全且适当。合法授权的数据集:训练数据完全合法,避免法律问题。偏见缓解:训练数据中平衡了性别、种族和残疾人的代表性。原创 2024-11-14 10:04:23 · 1047 阅读 · 0 评论 -
Qwen2.5-Coder-32B-Instruct Docker 部署openai接口
openwebui这个镜像里面是装了ollama的,直接进容器打开。这是量化后的模型,🈷约20G大小。吃62G显存,还需要max-model-len降到这么低,太大了。(img-yryWF50B-1731466165927)](img-gh4hPApW-1731466165928)](img-jHBWQPYw-1731466165928)]下载过程中如果网络突然慢了,那就断开,重新下,这个指令本身支持断点续传。Ollama默认绑定127.0.0.1端口11434。原创 2024-11-13 10:49:32 · 1434 阅读 · 0 评论 -
如何控制vLLM的显存,显存爆炸,显存溢出,qwen2.5显存
vLLM是一个用于加速大语言模型推理的开源库,主要通过智能批处理和显存优化技术,使大模型在多GPU环境中高效运行。vLLM采用了动态KV缓存机制,这使得它在多请求场景中能够显著提升吞吐量和响应速度。原创 2024-11-07 14:14:11 · 3718 阅读 · 0 评论 -
Qwen2.5 vs Llama3.1 对比
Qwen2.5通过其多种版本和增强功能,展现了在通用语言处理、编程、数学推理等多个领域的强大能力。无论是在技术提升还是在应用生态的广泛支持上,Qwen2.5都为开发者和研究人员提供了强有力的工具,预示着AI领域的新一轮创新浪潮。原创 2024-11-05 16:51:20 · 1545 阅读 · 0 评论 -
Meta更新了MobileLLM
模型地址:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95。适用于移动设备的小型LLM,大小分别为125M、350M、600M、1B。Meta更新了MobileLLM。原创 2024-11-05 14:03:49 · 149 阅读 · 0 评论 -
hertz-dev:斯坦福开源的音频模型
官方介绍:https://si.inc/hertz-dev/hertz-dev:斯坦福开源的音频模型。音频端到端基础模型,延迟120ms。原创 2024-11-05 14:03:14 · 176 阅读 · 0 评论 -
Docker lmdeploy 快速部署Qwen2.5模型openai接口
官方教程文档:https://github.com/InternLM/lmdeploy/blob/main/docs/zh_cn/llm/api_server.md。我已经把模型下载到/data/xiedong/Qwen2.5-72B-Instruct-GPTQ-Int4。浏览器访问接口文档:http://101.136.8.66:23333。该API类似于OpenAI的Completion API。该API类似于OpenAI的Completion API。获取详细API规范。获取详细API规范。原创 2024-11-05 10:54:02 · 925 阅读 · 0 评论 -
Docker vLLM 快速部署 Qwen2.5
平均时间: 1.81 秒。原创 2024-11-04 21:27:10 · 831 阅读 · 0 评论 -
Docker LLama-Factory vLLM 快速部署Meta-Llama-3.1-70B-Instruct
more。原创 2024-11-04 20:51:48 · 787 阅读 · 0 评论 -
Docker部署Meta-Llama-3.1-70B-Instruct API openai格式,vLLM速度对比
max-model-len:这个参数表示模型的上下文长度,即模型可以处理的最大输入长度。如果用户输入的长度超过这个限制,模型通常会报告错误,表明输入过长。为了符合该限制,通常需要对输入进行截断。max_num_seqs:这个参数指定了在同一时间内可以并行处理的请求数量,也就是批处理中的序列数量。如果这个值设置得过高,可能会消耗更多的内存,因此降低它可以帮助节省内存。相差很大,Vllm快得多。平均时间: 16.79 秒。平均时间: 3.31 秒。平均时间: 1.63 秒。原创 2024-11-04 20:14:07 · 517 阅读 · 0 评论 -
LLama-Factory 快速部署Qwen2.5模型
【代码】LLama-Factory 快速部署Qwen2.5模型。原创 2024-11-04 15:54:50 · 960 阅读 · 0 评论 -
modelscope下载Qwen2.5 72B 模型方法
more。原创 2024-11-03 14:00:59 · 915 阅读 · 0 评论 -
【深度学习】InstantIR:图片高清化修复
InstantIR(Instant Image Restoration)是一种创新的单张图像修复方法。它通过利用即时生成的参考信息,实现对受损图像的高质量修复。得益于先进的生成模型和视觉编码器,InstantIR 不仅能够恢复图像细节,还支持通过文本提示进行性能增强,甚至实现定制化的图像编辑。原创 2024-11-03 14:00:28 · 265 阅读 · 0 评论 -
【深度学习】InstantIR:图片高清化修复
InstantIR(Instant Image Restoration)是一种创新的单张图像修复方法。它通过利用即时生成的参考信息,实现对受损图像的高质量修复。得益于先进的生成模型和视觉编码器,InstantIR 不仅能够恢复图像细节,还支持通过文本提示进行性能增强,甚至实现定制化的图像编辑。原创 2024-11-03 13:16:09 · 537 阅读 · 0 评论 -
【深度学习】PromptFix:多功能AI修图
PromptFix的设计初衷是让用户通过简单的文本提示,就能完成复杂的图像处理任务。🎨图像上色:为黑白或灰度图像添加逼真的色彩。🧹对象移除:从图像中删除不需要的物体或元素。🌫️去雾:消除图像中的雾气,提高清晰度。💨去模糊:对模糊的图像进行锐化处理。🖼️水印移除:去除图像上的水印或标志。❄️去雪:清理下雪场景中的雪花干扰。🌙弱光增强:提升在低光照条件下拍摄的图像质量。基于扩散模型的骨干网络,PromptFix在纠正图像缺陷的同时,能够很好地保留原始图像的结构和细节。原创 2024-11-03 13:13:59 · 586 阅读 · 0 评论 -
训练和部署Qwen2.5,实战教程步骤,训练qwen2.5教程,vLLM,Open WebUI,LLaMA-Factory
Qwen2.5多规模模型:提供从 0.5B 到 72B 参数规模的模型,满足不同需求。强大的语言理解和生成能力:在文本生成、对话、问答等任务上表现出色。开源友好:模型和代码在上公开,方便开发者下载和使用。通过本教程,您应该已经了解了如何下载、部署和训练 Qwen2.5 模型。无论是直接调用 API,还是通过前端界面与模型交互,都可以帮助您更好地利用 Qwen2.5 的强大功能。如果您需要对模型进行微调,LLaMA-Factory 提供了便捷的工具链,助您快速实现自定义需求。原创 2024-11-01 16:31:20 · 1897 阅读 · 0 评论