- 博客(95)
- 资源 (1)
- 收藏
- 关注
原创 深度学习相关
本文摘要:文章涵盖深度学习多个关键技术,包括map算法原理及计算方法、模型量化原理、Stable Diffusion模型架构及U-Net作用。在PyTorch方面,解析了ModuleList与Sequential的区别、自定义Dataset需重写的函数、模型序列化方式,以及Python类的序列化方法。同时解答了Python可变参数(*args/**kwargs)、STL基础模块组成、vector中push_back与emplace_back的效率差异(后者更高效,避免临时对象构造),以及class与stru
2025-11-27 13:32:36
308
原创 PPO,DPO,GRPO算法流程及区别
本文对比了PPO、DPO和GRPO三种强化学习算法。PPO(近端策略优化)通过策略约束实现稳定训练,DPO(直接策略优化)直接优化策略参数,GRPO(广义近端策略优化)结合了二者的优势。主要区别在于:PPO采用on-line学习,DPO为off-line,GRPO支持两种模式。PPO通过minibatch提高效率,GRPO引入广义优势估计。优缺点方面,PPO稳定性好但计算量大,DPO简单但依赖数据质量,GRPO平衡了性能与复杂度。通俗来说,PPO像"小步试错",GRPO则是"智
2025-11-27 10:39:19
127
原创 【无标题】
本文介绍了三种优化注意力机制的创新方法:FlashAttention通过分块计算和在线softmax解决传统softmax的内存问题;PagedAttention采用分页管理机制实现灵活的内存分配和共享;Continuous Batching通过动态批处理提高GPU利用率。这些技术显著提升了Transformer模型的计算效率和内存管理能力,为大规模语言模型训练和推理提供了重要优化方案。
2025-11-26 17:51:06
108
原创 【无标题】
本文总结了深度学习的核心概念与指标:1)分类评估指标TP/TN/FP/FN及准确率、精确率、召回率、F1-score;2)激活函数softmax和sigmoid的特性与区别;3)目标检测中的IoU系列指标(GIoU/DIoU/CIoU)及其损失函数;4)常用损失函数包括交叉熵损失、Focal Loss及KL损失等;5)YOLO系列目标检测算法的坐标计算方法演变。内容涵盖分类、检测任务的关键技术点,通过公式与图示直观呈现核心概念,为深度学习实践提供理论基础。
2025-11-26 13:44:46
164
原创 CUDA编程
本文介绍了CUDA编程的核心概念和基本操作。主要内容包括:1) grid和block的层级结构,用于组织并行线程;2) 函数限定符__global__、__device__和__host__的区别;3) CUDA内存类型(全局、共享、常量等)及其特性;4) 内存访问优化技术;5) 设备内存管理函数cudaMalloc/cudaMemcpy/cudaFree的使用;6) 原子操作在多线程同步中的作用;7) 流和事件用于异步执行和同步控制。最后通过向量加法的完整示例代码,展示了核函数定义、设备内存分配、数据传输
2025-11-24 14:32:53
20
原创 Qwen1.0-VL,Qwen2.0-VL,Qwen2.5-VL,Qwen3.0-VL
Qwen系列视觉语言模型演进分析:Qwen1.0-VL到Qwen2.5-VL采用统一架构范式,包含视觉编码器(ViT)、语言适配器和LLM三部分。1.0版本建立基础框架,2.0引入动态分辨率机制,2.5版本升级为支持视频处理的window-attention ViT架构。各版本均通过将视觉token与文本token融合输入LLM实现跨模态交互,采用特殊标记区分模态,位置编码处理空间关系。训练流程均包含预训练和多任务微调,对齐方式保持右对齐。版本迭代主要体现在视觉编码效率提升(2.0的动态token、2.5的
2025-11-21 14:06:54
179
原创 BLIP,BLIPv2
BLIP和BLIPv2是两种多模态视觉-语言预训练模型。BLIP采用视觉编码器(ViT)、文本编码器和多模态编码器的三模块结构,通过交叉注意力机制实现图文交互。BLIPv2引入Q-Former作为视觉语言桥梁,将图像特征与冻结的大型语言模型(LLM)结合,显著提升性能。两者都采用特殊的位置编码设计,并包含图文匹配、图像描述生成等多项损失函数。BLIPv2通过轻量级Q-Former有效提取视觉特征,同时保持LLM的语言能力,在计算效率和模型性能上取得更好平衡。
2025-11-21 13:13:25
18
原创 CLIP模型
CLIP(Contrastive Language-Image Pretraining)是一种多模态学习模型,通过联合训练图像和文本编码器实现跨模态理解。其架构包含视觉Transformer的图像编码器和文本Transformer的文本编码器,均采用位置编码处理序列信息。模型利用CLS(分类)标记提取全局特征表示,通过对比损失函数优化图像-文本对的相似度计算,将匹配对拉近、非匹配对推远。该方法实现了视觉与语言表征的对齐,为下游任务提供强大的预训练基础。
2025-11-21 11:06:03
21
原创 PPO,DPO,GRPO
GRPO算法是PPO的改进版本,其核心思想是采用分组采样机制替代价值网络,通过序列级优化实现降本增效。与传统PPO相比,GRPO省去了价值网络训练,降低了计算成本,同时保持了良好的探索能力。从优化目标看,GRPO直接优化策略网络,DPO基于偏好学习,而PPO同时优化策略和价值网络。在资源有限情况下,GRPO因其高效性更适合对齐任务。GRPO虽高效但仍面临策略崩溃等风险,可通过监控奖励曲线、策略熵等指标发现异常。健康的GRPO训练中,奖励应稳步上升,策略熵缓慢下降,KL散度保持稳定。对于长序列任务,Token
2025-11-20 14:36:15
241
原创 Qwen系列
Qwen系列模型从1/1.5到3持续演进,核心改进包括:架构上采用GQA、RoPE、SwiGLU等技术,并逐步引入MoE结构;训练策略从SFT+PPO发展到SFT+DPO+GRPO;Qwen3新增QK-Norm、ABF-ROPE/YARN/DCA等创新机制,实现更优的长序列处理,并通过MoE专家共享与负载均衡提升性能。预训练阶段强化知识学习与上下文拓展,指令微调引入思维冷启动、推理强化等先进方法,展现持续的技术突破。
2025-11-20 11:16:25
191
原创 deepseek相关知识
摘要:本文介绍DeepSeek相关技术,包括多头潜在注意力(MLA)的计算流程、参数配置及相比MHA的改进;混合专家模型(MOE)的架构,特别是DeepSeekMoE中的共享专家和路由专家作用;多token预测(Multi-Token Prediction)的流程与优势;以及PSM(前缀-后缀-中间)数据格式及其在预训练中的应用优势。这些技术共同提升了模型性能和计算效率。
2025-11-20 09:51:12
302
原创 项目落地二
本文汇总了Python和C++中的多个关键技术点: Python装饰器详解,包括基本用法和带参数装饰器实现 C++核心概念:智能指针、STL容器、回调函数实现方式(函数指针/lambda等) C++面试重点:类与结构体区别、指针与引用对比、模板特化与偏特化 面向对象特性:多态实现(vptr/vtable)、继承中的虚函数与纯虚函数 YOLO系列优化:小目标检测改进方法、关键模块解析(CSP/SPP/PAN等) 目标检测评估指标演变:从IoU到CIoU/EIoU的优化路径 经典网络结构对比:YOLO系列各版本
2025-11-16 22:44:01
884
原创 系统优化与推理加速六
本文介绍了两种模型优化技术:1)int4量化方法,包括量化参数计算、权重映射和反量化过程,可将32位权重压缩到4位,显著减少存储需求但可能损失精度;2)fp16混合精度训练中的loss scaling技术,通过在反向传播前放大损失值,避免梯度下溢问题,同时在参数更新时进行缩放补偿。这两种技术在模型压缩和加速方面各有优势:量化可大幅减少模型体积,而loss scaling则能保证fp16训练的数值稳定性。但都存在一定局限性,如量化可能导致精度下降,loss scaling需要谨慎选择放大因子。这些方法为深度学
2025-11-15 15:02:05
171
原创 系统优化与推理加速五
本文摘要:文章系统探讨了大模型训练与推理优化的关键技术。在模型层面,分析了架构设计、训练策略、推理加速和内存管理等多维度优化方法;在系统层面,深入解读了进程内存管理机制、CPU性能监控工具链以及分布式训练中的并行策略。特别探讨了Python GIL问题解决方案、流式K-means变体、时间序列异常检测框架等实用技术。此外,还详细介绍了PyTorch的torchrun工具、vLLM推理框架关键技术以及Attention机制的计算复杂度分析。最后,从操作系统视角阐述了内存管理机制与页面置换策略,为构建高效分布式
2025-11-15 15:01:49
478
原创 系统优化与推理加速四
本文系统探讨了大模型训练与推理的系统优化技术,主要包含以下内容:1) DeepSpeed的ZeRO优化技术分阶段策略(ZeRO-1/2/3)对比,分析其显存节省、通信开销差异及适用场景;2) Flash-Attention通过融合计算与I/O优化加速注意力机制,尤其适用于长序列场景;3) KV-Cache在自回归生成中的工作原理及内存优化作用;4) 70亿参数模型全量微调的显存需求计算方法;5) 大模型推理优化的关键技术,包括模型压缩、计算图优化、硬件协同设计等;6) 模型部署中的服务化、批处理等解决方案;
2025-11-15 15:01:29
584
原创 系统优化与推理加速三
本文系统探讨了大模型优化与推理加速技术。在注意力机制方面,对比分析了MHA、GQA和MQA的结构差异与适用场景;量化技术部分详细阐述了GPTQ与QAT的区别,解释了W8A16混合精度方案的优势;性能优化层面介绍了GPU-CPU通信瓶颈诊断、FlashAttention内存优化等关键技术;还讨论了低精度格式(FP16/BF16/INT8)的取舍、结构化输出稳定性保障、ZeRO内存优化等实际问题。最后涵盖了KVCache原理、显存占用估算、延迟与质量平衡等核心议题,为大模型部署提供了全面的工程优化视角。
2025-11-15 15:01:10
555
原创 系统优化与推理加速二
VLLM框架通过内存优化和动态批处理实现大模型推理加速,其核心技术包括PageAttention的内存管理策略和连续批处理机制。在训练方面,DeepSpeed的ZeRO优化、梯度检查点等技术可降低显存需求。推理优化涉及量化、KV缓存管理等技术,如Llama-7B模型内存计算需考虑参数、激活值和KV缓存。FlashAttention通过算法优化提升注意力计算效率,而量化方法如GPTQ和QAT可进一步压缩模型。多查询注意力(MQA)和分组查询注意力(GQA)在计算效率与模型性能间取得平衡。大模型部署时采用动态批
2025-11-15 15:00:54
742
原创 强化学习二
"""DPO 损失函数参数:logits_pref: Tensor, 模型对偏好样本的logits输出logits_less: Tensor, 模型对不偏好样本的logits输出temperature: float, 温度系数,控制概率差异平滑程度返回:loss: DPO损失标量"""# 将logits转化为对数概率# 计算概率差# 使用Sigmoid函数计算概率。
2025-11-15 14:59:41
672
原创 多模态大模型三
本文系统探讨了多模态大模型的关键技术和应用。主要内容包括:1)典型训练流程(预训练-对齐-微调);2)Qwen2.5-VL三阶段训练详解;3)BLIP数据清洗方法;4)BLIP2/3技术演进;5)CLIP模型架构与对比学习机制;6)ViT跨模态融合原理;7)多模态商品检索系统设计;8)主流嵌入方法比较;9)ViT训练流程;10)语义嵌入技术对比;11)模型选型策略;12)记忆系统中跨模态对齐技术。着重分析了模型架构、训练策略、模态对齐等核心技术,并探讨了在实际系统中的应用挑战。
2025-11-15 14:58:35
846
原创 多模态大模型二
多模态大模型研究摘要:本文系统探讨了多模态大模型的技术原理与应用。在模型架构方面,重点分析了LLaVA的MLP适配器设计、BLIP系列模型的Q-Former模块,以及典型多模态模型中视觉编码器、语言模型和跨模态融合的组织方式。训练流程方面,详细阐述了预训练、对齐训练等关键阶段。数据构建方面,介绍了多模态数据集的收集、清洗、标注流程和质量控制方法。安全方面,探讨了多模态模型特有的越狱攻击风险。创新性方面,重点解析了BLIP2相比BLIP的技术改进,特别是Q-Former在视觉-语言特征映射中的核心作用。研究还
2025-11-15 14:58:16
641
原创 大模型训练与微调七
AWQ 量化# 1️⃣ 配置model_name = "Qwen/Qwen-3-4B" # 可替换为你自己的模型text = "介绍一下量化技术"# 2️⃣ 加载 tokenizer# 3️⃣ 加载模型进行 FP16 训练# 4️⃣ 准备训练数据集# 5️⃣ 配置训练参数fp16=True,# 6️⃣ 使用 Trainer 训练# 7️⃣ 保存 FP16 模型# 8️⃣ AWQ 量化 (int4/int8)# int4 量化# int8 量化# 9️⃣ 加载量化模型并推理。
2025-11-15 14:57:50
898
原创 大模型训练与微调五
本文系统介绍了大语言模型的训练与微调技术,主要包括:1)大模型微调的主要技术手段(LoRA、QLORA等)及其适用场景;2)完整训练流程的三个阶段(预训练、指令微调、RLHF)及相互关系;3)LoRA技术的原理与实现,包括低秩矩阵分解和参数效率分析;4)BERT等模型在下游任务中的微调流程;5)监督微调(SFT)的实践经验与优化策略;6)不同微调方法(全量、部分参数、LoRA)的对比分析;7)数据合成增强技术的应用价值;8)多模态模型微调中的LoRA应用;9)训练过程中的关键技术细节与最佳实践。内容涵盖算法
2025-11-15 14:57:02
601
原创 大模型训练与微调四
"""在原始线性层上应用LoRA低秩适配"""self.r = r # 低秩矩阵秩self.alpha = alpha # 缩放系数# LoRA参数# 初始化# 原始输出 + LoRA低秩增量。
2025-11-15 14:34:27
728
原创 大模型训练与微调三
本文探讨了大模型训练与微调的关键技术问题。在判别式任务转生成式建模方面,分析了模板设计和前缀构造等方法及其性能差异;针对继续预训练,讨论了新旧数据配比和通用能力评估方法;详细剖析了MoE模型的训练难点如负载均衡和路由优化。在数据验证方面,提出了通过学习曲线和质量评估判断数据规模的方法;总结了知识蒸馏的两种核心范式及其应用场景。此外,还探讨了LoRA微调参数选择、数据稀缺应对策略、超参数配置、序列长度处理等技术细节,并对知识蒸馏中的软硬标签差异、SFT阶段的问题识别等进行了深入分析。
2025-11-15 14:00:57
885
原创 大模型训练与微调二
本文摘要: 本文系统探讨了大模型训练与微调的关键技术和方法。主要内容包括:1)混合精度训练机制与梯度下溢解决方案;2)思维链数据在复杂推理任务中的应用原理;3)LoRA的非对称初始化策略及其优势;4)小数据场景下的迁移学习与数据增强策略;5)过拟合缓解方法如Dropout和早停法;6)完整训练流程从数据预处理到分布式训练;7)DPO训练问题的诊断方法;8)分布式训练中的并行策略比较;9)后训练流程与缩放定律的影响;10)类别不均衡问题的处理技术。文章全面覆盖了大模型训练的核心技术挑战与解决方案。
2025-11-15 12:44:48
496
原创 大模型架构和原理七
大模型架构与原理分析 本文比较了RMSNorm与LayerNorm的异同:RMSNorm去除了均值中心化,计算更高效但可能损失部分信息,适合大模型训练。主流大模型(如LLaMA、ChatGLM)多采用RMSNorm,主要基于工程效率考量。分析了DeepSeekv3系列架构创新点,包括稀疏注意力机制和混合专家模型,采用PPO算法进行强化学习微调。探讨了Qwen2/3系列的改进,特别是Qwen-VL多模态模型通过视觉编码器实现图文理解,训练中结合监督学习和RLHF方法。各种架构在归一化方法、注意力机制和训练策略
2025-11-15 11:00:12
878
原创 大模型架构和原理六
本文探讨了大语言模型(LLM)的核心概念与技术特性。首先对比了LLM与传统模型在架构规模、训练方式和泛化能力上的差异,重点解析了自注意力与交叉注意力机制的工作原理。其次,详细介绍了支持长上下文处理的关键技术,如改进的位置编码和注意力优化。通过分析Qwen、LLaMA和DeepSeek等主流模型的架构差异,阐述了MoE混合专家模型的设计原理和应用场景。最后从计算资源、数据瓶颈等角度探讨了LLM的发展上限,并讨论了参数估算方法、注意力机制优化等具体技术问题,全面展现了大模型领域的技术现状和发展趋势。
2025-11-15 10:59:25
795
原创 项目落地一
本文摘要整理了20个技术问题,涵盖目标检测、推荐系统、自然语言处理、向量检索、PDF解析等多个领域。主要内容包括:YOLOV5优化策略,推荐系统三模块协同原理,LLM与BERT在意图识别的区别,向量检索选型及Milvus应用,PDF解析工具及表格处理方案,数据长尾问题解决方法,召回阈值设置技巧,以及vLLM底层原理等关键技术问题的探讨。这些问题聚焦实际工程实现中的难点,如模型部署量化、跨页表格处理、联网插件优化等,体现了从算法到落地的完整技术思考。
2025-11-15 09:11:24
434
原创 系统优化与推理加速一
本文系统探讨了大模型训练与推理优化的关键技术,涵盖20个核心问题。在训练优化方面,重点分析了DeepSpeed框架的ZeRO三阶段优化、混合精度训练及梯度累积等策略;在推理优化方面,详细讨论了KVCache机制、量化技术和轻量化方法的应用。同时,针对显存不足问题,提供了包括模型并行、梯度检查点等解决方案,并阐述了分布式训练中资源分配与通信优化的平衡策略。文章还比较了各种注意力机制优化方法的优缺点,为大模型的高效部署提供了系统性技术参考。
2025-11-15 09:10:49
540
原创 强化学习一
本文系统介绍了大模型强化学习的核心方法与技术流程。主要涵盖PPO、DPO、RLHF等主流算法,详细阐述了PPO的四个模型架构及训练流程、DPO的直接优化原理与传统RLHF的区别。同时分析了监督微调与强化学习的差异,比较了on-policy与off-policy方法特点,探讨了奖励模型构建要点。文章还对比了PPO、DPO、GRPO等算法在RLHF应用中的优缺点,解析了交叉熵与KL散度的数学关系及在PPO中的适用性。最后总结了强化学习的基本框架及各组件的交互关系,为理解大模型强化学习提供了全面参考。
2025-11-15 09:10:20
519
原创 多模态大模型一
本文聚焦多模态大模型技术,系统探讨了视觉-语言模型的架构设计与训练方法。核心技术包括:1)视觉与语言特征的跨模态融合方法(Q-Former与MLP适配器的对比分析);2)BLIP等模型的创新架构;3)多阶段训练流程(预训练与对齐阶段);4)损失函数设计(ITC、ITM、LM);5)上下文扩展技术。重点分析了视觉特征传递、跨模态对齐、模型扩展等关键技术,对比了不同适配器方案在参数量、计算效率等方面的优劣。研究为构建高效多模态系统提供了技术参考,涉及界面理解、特征融合、模型训练等核心问题。
2025-11-15 09:09:53
840
原创 大模型训练与微调一
本文系统探讨了大模型训练与微调中的关键技术和方法。首先分析了预训练、微调和RLHF三个阶段的目标与关系;详细介绍了LoRA的低秩适应原理及其计算优势;比较了交叉熵与KL散度的数学定义及在模型训练中的应用;阐述了ZeRO优化技术的阶段划分与内存优化策略;探讨了CoT训练方法、模型蒸馏技术以及MoE模型的挑战;最后总结了并行策略、量化方法等训练加速技术。全文重点围绕参数高效微调、内存优化和训练方法论展开,系统梳理了大模型生命周期中的核心技术体系。
2025-11-15 09:09:04
662
原创 大模型架构和原理五
本文涵盖大模型架构的核心原理与关键技术,重点解析自注意力机制的工作原理及其计算复杂度,详细阐述Transformer中QKV计算、注意力分数生成与多头注意力实现。探讨位置编码(绝对/相对/旋转/ALiBi)、稀疏注意力等长上下文处理技术,分析混合专家模型(MoE)的挑战与优化方案。结合BERT、Qwen3等案例,说明模型如何通过预训练获得语言理解和逻辑推理能力,并面向非技术读者通俗解释大模型基于概率预测实现问答的机制。最后对比Swin Transformer等视觉架构改进,系统梳理代码生成、数学解题等能力的
2025-11-14 14:17:24
949
原创 大模型架构和原理四
本文摘要围绕大模型架构和原理展开,主要探讨了以下核心内容:(1)Vision Transformer的patch大小选择及其影响;(2)卷积神经网络中深浅层特征的依赖关系;(3)交叉注意力机制原理及应用场景;(4)大语言模型词表冗余问题;(5)主流分词算法比较;(6)Transformer关键组件如自注意力、MQA/GQA机制的设计原理;(7)激活函数选择策略;(8)输出层维度设计;(9)模型实现细节包括编码器-解码器结构、残差连接等。文章系统性地解析了大模型架构的核心技术原理、优化方法及实现细节,为理解和
2025-11-14 14:17:05
693
原创 大模型架构和原理三
本文摘要围绕Transformer架构中的关键技术展开探讨,主要内容包括:1)位置编码的作用及其与词向量的相加原理;2)多头注意力机制的变体比较,重点分析GQA与传统MHA在计算效率和应用场景上的差异;3)注意力机制实现细节,涵盖mask处理、计算复杂度优化及输出维度转换;4)大模型关键技术如LLaMA的创新点和多模态模型特点。文章通过数学推导和架构分析,系统阐释了Transformer核心组件的设计原理与实现方法,为理解现代大语言模型提供了技术基础。
2025-11-14 14:16:30
814
vs+libtorch(环境配置以及部署),包含batch推理,FP16推理
2022-07-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅