- 博客(211)
- 收藏
- 关注
原创 mac系统安装从github下载的开源软件时,提示:“已损坏,无法打开” 之 解决办法
github下载的dmg文件安装后,提示“已损坏,无法打开”根据图片内容,这是因为macOS系统的安全机制阻止了该应用的运行。
2025-11-24 21:56:14
63
原创 【一、基础篇】Q5:Encoder 和 Decoder 结构的主要区别?
Transformer模型中的Encoder和Decoder在结构上既有相似之处,也存在关键区别,这些区别决定了它们各自在模型中的独特作用。下面的表格清晰地展示了它们的核心差异。
2025-11-07 17:33:15
399
原创 【一、基础篇】Q4:位置编码的作用是什么?
总而言之,位置编码是Transformer模型理解序列逻辑的“指南针”。它通过弥补自注意力机制无序性的固有缺陷,使模型能够正确处理语言中的顺序信息,这是Transformer及其衍生的大语言模型能够在诸多序列任务上取得成功的基石。希望以上的解释能帮助你清晰地理解位置编码的作用。如果你想了解像RoPE这样的特定编码方式是如何具体实现的,我们可以继续深入探讨。
2025-11-07 17:15:49
576
原创 【一、基础篇】Q3:多头注意力中 “头”(head)指的是什么?
总之,多头注意力中的“头”是实现多角度序列理解的核心组件。它通过并行独立的注意力计算单元,使模型能够同时捕捉输入数据中不同类型的关系,从而为现代大语言模型(如Transformer系列)的强大性能奠定基础。
2025-11-07 17:04:42
259
原创 【一、基础篇】自注意力机制中的 Q,K、V 矩阵是什么缩写?
自注意力机制中的分别是和的缩写。它们是理解Transformer模型及其衍生大语言模型(如GPT、BERT等)如何工作的核心概念。为了帮助您快速建立整体认知,下表清晰地展示了它们的分工与合作。
2025-11-07 16:58:19
375
原创 【一、基础篇】Transformer 模型主要由哪两部分组成?
Transformer模型主要由和两大部分组成。这是一个经典的序列到序列(Seq2Seq)架构,最初是为机器翻译等任务设计的,其中编码器负责理解输入序列,而解码器负责生成输出序列。下面这个表格清晰地展示了两部分的核心构成与职能。
2025-11-07 16:57:24
726
原创 prefill为什么叫prefill?
在Decode阶段,模型每生成一个新词,只需要将上一个词与之前已缓存好的KV Cache进行计算即可,无需再重复处理整个提示文本。• Prefill就是做笔记的过程:在这个阶段,模型会并行处理你输入的全部提示文字,并通过自注意力机制计算出每个词对应的Key和Value向量,然后将这些向量保存下来,形成KV Cache。总而言之,“Prefill”之所以叫“预填充”,是因为它形象地概括了其核心工作:在生成内容之前,预先将输入信息处理并填充到缓存(KV Cache)中,为高效、流畅的文本生成做好关键准备。
2025-11-05 09:49:20
321
原创 transformer架构为什么要切分为多头?
Transformer的多头注意力机制通过功能分解和并行处理,在不过度增加计算成本的前提下,显著提升了模型的语言理解能力和表达能力,这是其能够在各类NLP任务中取得突破性成果的关键设计之一。单头注意力机制只能学习一种固定的注意力模式,而多头注意力允许模型同时从不同的语义子空间捕捉多样化的信息关系。例如,GPT-3采用96个头,每个头仅128维,在这种相对低维空间中,注意力权重的计算更加精确可靠。研究表明,不同的头会自发学习不同类型的注意力模式,如关注局部依赖、长距离依赖、语法关系等。
2025-11-02 12:47:23
418
原创 VLM主流架构分析:Gemini 2.5 Pro 和 Qwen3-VL
Gemini 2.5 Pro 和 Qwen3-VL 代表了当前视觉语言模型(VLM)两种主流的架构方案。Gemini 2.5 Pro 采用的是从零开始协同设计的,而 Qwen3-VL 则采用了基于大型语言模型(LLM)扩展的。下面的表格可以让你快速把握两者的核心区别。
2025-10-31 17:47:38
319
原创 大模型训练加速(基于minimind)
技术加速倍数显存节省说明2-4x~50%注意力计算优化混合精度 (bfloat16)1.5-2x~50%训练精度优化DDP (N卡)~N倍多卡并行梯度累积等效增大batch减少峰值显存显存受限时有效Pin Memory1.1-1.2x数据加载优化zero_grad优化轻微轻微内存优化。
2025-10-31 10:10:40
359
原创 参数量和模型大小的计算方法(LLM)
与训练时相同: 2 bytes per parameter。=== 5. MiniMind实际使用 ===训练时: bfloat16 (2 bytes)模型大小 = 参数量 × 数据类型大小。=== 参数量到模型大小计算 ====== 2. 数据类型大小 ====== 3. 学生模型计算 ====== 4. 教师模型计算 ===参数量: 123,100,000。=== 1. 基本公式 ===参数量: 31,700,000。=== 6. 压缩效果 ===模型大小压缩: 3.9:1。
2025-10-28 17:49:33
838
原创 模型参数大小计算
基于代码分析,我可以明确回答教师模型和学生模型的大小:=== 教师模型 vs 学生模型大小对比 ====== 1. 模型配置对比 ====== 2. 参数量计算 ====== 3. 大小对比 ====== 4. 实际代码中的显示 ====== 5. 压缩效果 ====== 6. 性能考虑 ====== 7. 总结 ===教师模型 vs 学生模型:✅ 教师模型: 123.1M参数, 768维, 16层✅ 学生模型: 31.7M参数, 512维, 8层✅ 压缩比: 3.9:1。
2025-10-28 17:47:26
682
原创 LLaMA-Factory 集成了哪些超参数调优框架?及 Optuna + Weights & Biases + TensorBoard对比分析
总而言之,LLaMA-Factory 不仅集成了超参数调优框架,而且通过自动化算法、高效的微调策略和友好的用户界面三者结合,将调优过程变得系统化和可操作。无论你是初学者还是资深开发者,都能借助它有效地提升模型训练的效果和效率。总而言之,LLaMA-Factory通过灵活的配置,将TensorBoard和WandB等专业可视化工具无缝接入训练流程,极大地提升了实验的可观测性和管理效率。如果您是独立研究者或进行本地调试,从开始会非常直接和方便。如果您在团队中工作或需要进行系统的超参数搜索和实验对比。
2025-10-28 13:59:16
872
原创 LangGraph框架解决AI上下文过载问题
痛点:简单的上下文修剪可能导致间接相关但关键的信息丢失。原理语义浓缩。当上下文过长时,触发摘要节点,让模型将历史对话提炼成简洁的摘要,保留核心观点、逻辑关系和关键数据,然后用摘要替代原始长上下文。LangGraph实现:设置一个条件分支,当上下文Token数超过阈值(如1500)时,触发“摘要节点”,生成摘要后再进入回答生成阶段。性能提升:与仅修剪相比,在保证高压缩率(30K Token→8K Token)的同时,将关键信息遗漏率从25%大幅降低至8%。
2025-10-28 13:48:51
467
原创 模型训练的各个训练阶段的参数设置的建议值
然而,我们可以根据训练的不同阶段和目标,提供一套具有强指导意义的。以下是根据上图所示的训练阶段,给出的详细参数设置建议与解释。,最佳参数严重依赖于具体任务、数据、模型架构和硬件条件。希望这份分阶段的建议能为你提供清晰的调参路线图!这是一个非常核心且实用的问题。
2025-10-28 09:35:13
756
原创 lovable实战记录
方面说明抓取方式Lovable 内置工具(非开源爬虫)设计方法分析 + 原创重建(非直接复制)代码来源100% 手写 React 组件问题:说明你的角色定义,目的,和功能🤖 我的角色定义我是 Lovable,一个专门用于创建和修改 Web 应用程序的 AI 编辑器。我通过与你对话来理解你的需求,并实时对代码进行更改。🎯 我的目的我的核心目的是帮助你:快速构建 Web 应用:无需从零开始,我可以帮你生成完整的应用架构迭代和优化:根据你的反馈不断改进应用解决问题:调试错误、优化性能、改进用户体验。
2025-10-23 09:54:08
939
原创 梯度缩放和梯度裁剪
总而言之,梯度缩放和梯度裁剪并非“二选一”的关系,而是深度学习中针对不同痛点(精度不足vs稳定性不足)的两种重要工具。理解它们各自解决的核心问题,能帮助您根据实际训练情况,更精准地选择和配置这些技术,从而实现更高效、更稳定的模型训练。
2025-10-22 14:20:34
776
原创 大模型的预训练、SFT、蒸馏、lora 本质都是在做对下一个词的预测的校准训练?
简单来说,您的理解是。大模型的预训练、SFT(监督微调)、蒸馏以及LoRA微调,其根本的确实都是基于“下一个词的预测”,但它们在上存在关键差异。下面的表格可以帮您快速把握这几种技术的联系与区别。
2025-10-21 21:26:30
418
原创 DPO、PPO和GRPO对比分析
DPO、PPO和GRPO这三种算法在训练数据的格式、来源和使用方式上存在,因此它们所使用的数据集通常。这些差异源于它们各自独特的工作原理和目标。为了让你能快速把握全局,下表清晰地对比了这三种算法在数据集方面的核心区别。状态-动作-奖励。
2025-10-21 09:31:13
317
原创 本地单卡从零训练大模型:minimind项目学习总结
A[手动设定核心架构参数] --> B{是否启用GQA/MQA?A --> C[计算总参数量<br>params]subgraph A [手动设定的核心架构参数]A1[len_vocab<br>词表长度]A2[n_layers<br>模型层数]A3[d_model<br>模型维度]A4[q_heads<br>查询头数量]endB -- 是 --> D[手动设定kv_heads<br>KV头数量]B -- 否(标准MHA) --> E[kv_heads = q_heads]
2025-10-20 10:35:29
730
1
原创 网络层数、参数量、数据集大小的关系
在Transformer架构中,网络的层数和参数量与训练数据集大小之间,并非简单的单向决定关系,而是一种需要协同优化的动态平衡。为了让你快速把握核心关系,下表总结了在不同规模数据集下,模型层数与参数量的典型配置策略。
2025-10-18 15:42:19
327
原创 向量检索相关算法应用分析
总而言之,余弦相似度因其在文本语义相似度计算上的优异表现而成为最常用和默认的选择之一,但向量检索领域绝非其一家独大。让相似度度量方法与您的嵌入模型训练目标保持一致。在实际操作中,最好的方法是依据您所选用的嵌入模型的官方文档推荐,并结合具体业务场景进行验证测试。
2025-10-16 10:47:57
433
原创 主流大模型快速应用分析
为了帮助您全面了解当前主流大模型生态,我整理了下面这份详尽的对比分析表。它涵盖了开源与闭源、国内与国外的代表性模型,并从核心原理到实战调参等多个维度进行了梳理。
2025-10-15 21:56:06
751
原创 主流机器学习算法的快速应用指南
入门基石(理解基础):建议从线性回归和逻辑回归开始,它们能帮你建立对模型、损失函数和优化的直观感受。接着学习决策树,它的规则非常直观。K-Means和PCA是理解无监督学习思想的良好起点。进阶利器(应对复杂场景):当遇到更复杂的问题时,随机森林这样的集成模型通常能提供更强大且稳定的性能。SVM在小样本、高维数据上仍有其独特价值。前沿重器(处理非结构化数据):对于图像、语音、文本等复杂数据,神经网络/深度学习是目前最主流和强大的工具。实践关键(超越算法本身)
2025-10-15 21:06:26
843
原创 OpenPI源码分析
组件参数量说明SigLIP 视觉编码器~400M预训练权重(冻结或微调)~2B视觉-语言融合主干~311M动作生成专家网络投影层~1M输入输出投影总计~2.7B约 27 亿参数文件来源说明gemma.py🔵siglip.py🔵vit.py🟢改编自✅OpenPI 并非从零实现这些模型复用 Google 开源的高质量实现进行关键的架构改编多专家架构(PaliGemma + Action Expert)AdaRMSNorm(时间条件注入)LoRA 高效微调流匹配动作生成。
2025-10-15 19:11:33
684
原创 LGBM(LightGBM)和DeepFM
LGBM(LightGBM)和DeepFM是机器学习,尤其是推荐系统、点击率预测等场景中两个非常重要且特点鲜明的模型。它们分别代表了梯度提升树模型和深度神经网络模型在处理结构化数据时的不同思路。下面这个表格可以让你快速把握它们的核心区别与联系。
2025-10-13 16:05:55
406
原创 扫地机器人算法分析
总而言之,DFS算法为扫地机器人的路径规划提供了重要的理论基础,证明了全覆盖的可行性。但在实际产品中,它很少被单独使用。现代扫地机器人是一个复杂的系统,它融合了“弓形清扫”等高效覆盖策略、沿边算法、以及SLAM技术,从而实现了在动态变化的家庭环境中高效、全面、智能的清扫任务。
2025-10-13 16:03:50
1088
原创 Transformers库分析
总而言之,将 DeepSeek-V3 模型的数学架构和预训练参数“翻译”成 PyTorch 能够理解和执行的代码,从而让研究者和开发者能够轻松地加载、运行、研究、定制和微调这个先进的大语言模型。它就像是 DeepSeek-V3 这个“大脑”的蓝图和说明书,没有这份代码,发布的模型权重就只是一堆无法使用的数字。方式适用场景核心优势快速实验、原型开发、研究人员易用性、灵活性、社区支持原生态加载需要体验模型最新特性、深入研究模型机制最接近官方实现vLLM生产环境、高并发 API 服务。
2025-10-13 14:27:22
806
原创 Softmax
Softmax 函数中的温度 T 和你在调整大模型行为时设置的温度 T,是同一个参数在不同上下文中的体现。它就像一个控制生成文本“性格”的旋钮,理解其原理能帮助你更有效地使用大模型。
2025-10-10 16:29:52
962
原创 梯度消失和梯度爆炸
总而言之,Transformer并非依靠单一技术,而是通过自注意力机制、残差连接、层归一化等一组相互配合的设计,共同构成了一套强大的梯度稳定方案。这套方案使其能够成功训练层数极深、参数规模巨大的模型,最终奠定了现代大语言模型的基础。希望这个解释能帮助你清晰地理解Transformer在梯度问题上的巧妙处理。如果你对其中的某个具体组件,比如层归一化与批量归一化的区别,或者多头注意力的具体计算过程还想有更深入的了解,我们可以继续探讨。
2025-10-10 15:55:36
583
原创 GELU 高斯误差线性单元
总而言之,GELU通过其平滑、概率化的门控机制,在保持ReLU主要优点的同时,有效克服了其关键缺陷,提供了更稳定的训练动态和更强大的模型表达能力。这使其特别适合Transformer这类复杂且深度的网络架构,成为现代大语言模型事实上的标准激活函数。希望这些解释能帮助你透彻地理解GELU。如果你对它与Swish等其他激活函数的细微区别,或者在实际调参中的技巧感兴趣,我们可以继续深入探讨。
2025-10-05 17:17:29
604
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅