自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(220)
  • 收藏
  • 关注

原创 Ubuntu系统中查询显卡的生产日期

在Ubuntu系统中查询显卡的生产日期,最核心且可靠的方法是找到显卡上的SN码(序列号),然后通过特定规则解读或官网查询。由于Ubuntu没有像Windows那样直接显示生产日期的图形化工具,命令行也无法直接获取此信息,因此需要“手动”处理。

2025-12-15 15:13:35 698

原创 ubuntu网络管理功能分析

这是Linux下常见的网络管理服务,负责管理有线/无线网卡、VPN、移动宽带等。用户可根据需求选择合适的工具,无需额外安装(除非切换版本或最小化安装)。,但具体实现方式因版本(桌面版/服务器版)和安装类型而异,核心工具包括。是轻量级、高性能的工具,适合服务器环境(资源有限、需要稳定运行)。Ubuntu服务器版(如20.04、22.04)Ubuntu桌面版(如22.04、24.04))定义网络设置,然后调用底层渲染器(提供图形化和命令行支持,服务器版通过。组件的一部分)作为网络管理服务。

2025-12-15 11:59:34 878

原创 MQTT客户端快速调试工具实践记录

1)在工具界面 新增订阅 对应topic的 _reply后缀的topic,这样服务端收到发送的消息后,响应的消息会在上面的窗口中显示;2)在服务器后台,查看对应消息处理服务的日志;(具体跟产品自身的业务实现有关)工具获取地址:https://github.com/emqx/MQTTX。1、先配置topic(上图右下角的)

2025-12-15 10:35:49 110

原创 Ubuntu如何判断获取到的IP地址是静态IP还是动态?

通过以上方法,可快速判断 Ubuntu 当前使用的是动态还是静态 IP。若需切换类型,需修改对应配置文件并重启网络服务。

2025-12-15 10:28:34 822

原创 AI驱动架构设计开源项目分析:next-ai-drawio

系统提示词(角色定义:draw.io XML 生成专家和核心能力:生成流程图、思维导图等布局约束:坐标范围、容器尺寸限制特殊要求:中文回复、AWS 图标、图片识别等:创建新图表:编辑现有图表第 82-90 行将当前 XML 和用户输入格式化为结构化文本这些提示词共同指导 AI 生成和编辑 draw.io 图表。

2025-12-12 12:59:31 298

原创 Spring Boot 的配置文件加载优先级和合并机制分析

JAR 内部配置配置会合并:外部配置覆盖相同键的值,未定义的键继续使用内部配置推荐做法:外部配置文件只包含需要修改的配置项,其他使用默认值这样可以在不重新打包的情况下,灵活调整生产环境的配置。

2025-12-04 17:32:14 248

原创 大疆无人机开源项目源码分析:MQTT指令定义源码分析

核心 Topic 定义文件/***/定义了所有 MQTT Topic 的前缀和后缀常量。等等路由处理层:各种 Router 类Services:服务指令(双向通信)Requests:设备请求指令(设备主动请求)Events:事件指令(设备主动上报)DRC:实时控制指令(上行/下行)State/OSD:状态和遥测数据该架构支持通过 MQTT 与无人机设备进行多种类型的指令交互。

2025-12-04 17:23:50 404

原创 大疆无人机开源项目源码分析:MQTT协议实现分析

基础通信:MQTT over TCP(tcp://,端口 1883)无人机控制:MQTT over WebSocket(ws://,端口 8083)BASIC 使用 TCPDRC 使用 WebSocket(便于浏览器/Web 客户端连接)都使用 Eclipse Paho MQTT 客户端库,支持 TCP 和 WebSocket 两种传输方式。

2025-12-04 17:20:43 314

原创 大疆开源的MQTT交互的SDK包下载地址和接口文档地址

为了帮助您快速获取大疆无人机MQTT交互相关的开发资源,我整理了以下官方及社区资料链接。这些资源主要围绕大疆的,它正是通过MQTT等标准协议将无人机能力抽象为物联网设备物模型的核心方案。下表汇总了核心的SDK示例代码库和官方文档地址,方便您直接取用。

2025-12-01 17:18:41 392

原创 mac系统安装从github下载的开源软件时,提示:“已损坏,无法打开” 之 解决办法

github下载的dmg文件安装后,提示“已损坏,无法打开”根据图片内容,这是因为macOS系统的安全机制阻止了该应用的运行。

2025-11-24 21:56:14 182

原创 【一、基础篇】Q5:Encoder 和 Decoder 结构的主要区别?

Transformer模型中的Encoder和Decoder在结构上既有相似之处,也存在关键区别,这些区别决定了它们各自在模型中的独特作用。下面的表格清晰地展示了它们的核心差异。

2025-11-07 17:33:15 415

原创 【一、基础篇】Q4:位置编码的作用是什么?

总而言之,位置编码是Transformer模型理解序列逻辑的“指南针”。它通过弥补自注意力机制无序性的固有缺陷,使模型能够正确处理语言中的顺序信息,这是Transformer及其衍生的大语言模型能够在诸多序列任务上取得成功的基石。希望以上的解释能帮助你清晰地理解位置编码的作用。如果你想了解像RoPE这样的特定编码方式是如何具体实现的,我们可以继续深入探讨。

2025-11-07 17:15:49 604

原创 【一、基础篇】Q3:多头注意力中 “头”(head)指的是什么?

总之,多头注意力中的“头”是实现多角度序列理解的核心组件。它通过并行独立的注意力计算单元,使模型能够同时捕捉输入数据中不同类型的关系,从而为现代大语言模型(如Transformer系列)的强大性能奠定基础。

2025-11-07 17:04:42 287

原创 【一、基础篇】自注意力机制中的 Q,K、V 矩阵是什么缩写?

自注意力机制中的分别是和的缩写。它们是理解Transformer模型及其衍生大语言模型(如GPT、BERT等)如何工作的核心概念。为了帮助您快速建立整体认知,下表清晰地展示了它们的分工与合作。

2025-11-07 16:58:19 417

原创 【一、基础篇】Transformer 模型主要由哪两部分组成?

Transformer模型主要由和两大部分组成。这是一个经典的序列到序列(Seq2Seq)架构,最初是为机器翻译等任务设计的,其中编码器负责理解输入序列,而解码器负责生成输出序列。下面这个表格清晰地展示了两部分的核心构成与职能。

2025-11-07 16:57:24 768

原创 prefill为什么叫prefill?

在Decode阶段,模型每生成一个新词,只需要将上一个词与之前已缓存好的KV Cache进行计算即可,无需再重复处理整个提示文本。• Prefill就是做笔记的过程:在这个阶段,模型会并行处理你输入的全部提示文字,并通过自注意力机制计算出每个词对应的Key和Value向量,然后将这些向量保存下来,形成KV Cache。总而言之,“Prefill”之所以叫“预填充”,是因为它形象地概括了其核心工作:在生成内容之前,预先将输入信息处理并填充到缓存(KV Cache)中,为高效、流畅的文本生成做好关键准备。

2025-11-05 09:49:20 346

原创 transformer架构为什么要切分为多头?

Transformer的多头注意力机制通过功能分解和并行处理,在不过度增加计算成本的前提下,显著提升了模型的语言理解能力和表达能力,这是其能够在各类NLP任务中取得突破性成果的关键设计之一。单头注意力机制只能学习一种固定的注意力模式,而多头注意力允许模型同时从不同的语义子空间捕捉多样化的信息关系。例如,GPT-3采用96个头,每个头仅128维,在这种相对低维空间中,注意力权重的计算更加精确可靠。研究表明,不同的头会自发学习不同类型的注意力模式,如关注局部依赖、长距离依赖、语法关系等。

2025-11-02 12:47:23 436

原创 VLM主流架构分析:Gemini 2.5 Pro 和 Qwen3-VL

Gemini 2.5 Pro 和 Qwen3-VL 代表了当前视觉语言模型(VLM)两种主流的架构方案。Gemini 2.5 Pro 采用的是从零开始协同设计的,而 Qwen3-VL 则采用了基于大型语言模型(LLM)扩展的。下面的表格可以让你快速把握两者的核心区别。

2025-10-31 17:47:38 365

原创 大模型单卡训练效果测试(基于minimind)

1、本地启动,H100上,速度非常快;4、秦始皇等历史问题能正常回答;2、能进行简单的对话;

2025-10-31 10:22:28 135

原创 大模型训练加速(基于minimind)

技术加速倍数显存节省说明2-4x~50%注意力计算优化混合精度 (bfloat16)1.5-2x~50%训练精度优化DDP (N卡)~N倍多卡并行梯度累积等效增大batch减少峰值显存显存受限时有效Pin Memory1.1-1.2x数据加载优化zero_grad优化轻微轻微内存优化。

2025-10-31 10:10:40 370

原创 大模型训练关键技术参数总结浓缩版(基于minimind)

通用损失计算流程。

2025-10-31 09:26:48 784

原创 loss_mask的作用场景

这些策略都是为了确保模型只在真正需要学习的位置计算损失,提高训练效率和效果。

2025-10-29 13:44:48 296

原创 参数量和模型大小的计算方法(LLM)

与训练时相同: 2 bytes per parameter。=== 5. MiniMind实际使用 ===训练时: bfloat16 (2 bytes)模型大小 = 参数量 × 数据类型大小。=== 参数量到模型大小计算 ====== 2. 数据类型大小 ====== 3. 学生模型计算 ====== 4. 教师模型计算 ===参数量: 123,100,000。=== 1. 基本公式 ===参数量: 31,700,000。=== 6. 压缩效果 ===模型大小压缩: 3.9:1。

2025-10-28 17:49:33 863

原创 模型参数大小计算

基于代码分析,我可以明确回答教师模型和学生模型的大小:=== 教师模型 vs 学生模型大小对比 ====== 1. 模型配置对比 ====== 2. 参数量计算 ====== 3. 大小对比 ====== 4. 实际代码中的显示 ====== 5. 压缩效果 ====== 6. 性能考虑 ====== 7. 总结 ===教师模型 vs 学生模型:✅ 教师模型: 123.1M参数, 768维, 16层✅ 学生模型: 31.7M参数, 512维, 8层✅ 压缩比: 3.9:1。

2025-10-28 17:47:26 692

原创 LLaMA-Factory 集成了哪些超参数调优框架?及 Optuna + Weights & Biases + TensorBoard对比分析

总而言之,LLaMA-Factory 不仅集成了超参数调优框架,而且通过自动化算法、高效的微调策略和友好的用户界面三者结合,将调优过程变得系统化和可操作。无论你是初学者还是资深开发者,都能借助它有效地提升模型训练的效果和效率。总而言之,LLaMA-Factory通过灵活的配置,将TensorBoard和WandB等专业可视化工具无缝接入训练流程,极大地提升了实验的可观测性和管理效率。如果您是独立研究者或进行本地调试,从开始会非常直接和方便。如果您在团队中工作或需要进行系统的超参数搜索和实验对比。

2025-10-28 13:59:16 910

原创 LangGraph框架解决AI上下文过载问题

痛点:简单的上下文修剪可能导致间接相关但关键的信息丢失。原理语义浓缩。当上下文过长时,触发摘要节点,让模型将历史对话提炼成简洁的摘要,保留核心观点、逻辑关系和关键数据,然后用摘要替代原始长上下文。LangGraph实现:设置一个条件分支,当上下文Token数超过阈值(如1500)时,触发“摘要节点”,生成摘要后再进入回答生成阶段。性能提升:与仅修剪相比,在保证高压缩率(30K Token→8K Token)的同时,将关键信息遗漏率从25%大幅降低至8%。

2025-10-28 13:48:51 504

原创 自动化运维框架分析

Ansible 是一款功能强大且广受欢迎的,它主要用于等IT运维场景。它的核心目标是让运维工作变得更简单、更高效、更可重复。

2025-10-28 09:53:41 816

原创 模型训练的各个训练阶段的参数设置的建议值

然而,我们可以根据训练的不同阶段和目标,提供一套具有强指导意义的。以下是根据上图所示的训练阶段,给出的详细参数设置建议与解释。,最佳参数严重依赖于具体任务、数据、模型架构和硬件条件。希望这份分阶段的建议能为你提供清晰的调参路线图!这是一个非常核心且实用的问题。

2025-10-28 09:35:13 774

原创 4A架构分析

4A架构是企业数字化转型的核心框架,它通过四个关键层面的协同设计,确保技术投入能精准支撑业务战略。

2025-10-27 17:32:10 836

原创 lovable实战记录

方面说明抓取方式Lovable 内置工具(非开源爬虫)设计方法分析 + 原创重建(非直接复制)代码来源100% 手写 React 组件问题:说明你的角色定义,目的,和功能🤖 我的角色定义我是 Lovable,一个专门用于创建和修改 Web 应用程序的 AI 编辑器。我通过与你对话来理解你的需求,并实时对代码进行更改。🎯 我的目的我的核心目的是帮助你:快速构建 Web 应用:无需从零开始,我可以帮你生成完整的应用架构迭代和优化:根据你的反馈不断改进应用解决问题:调试错误、优化性能、改进用户体验。

2025-10-23 09:54:08 979

原创 梯度缩放和梯度裁剪

总而言之,梯度缩放和梯度裁剪并非“二选一”的关系,而是深度学习中针对不同痛点(精度不足vs稳定性不足)的两种重要工具。理解它们各自解决的核心问题,能帮助您根据实际训练情况,更精准地选择和配置这些技术,从而实现更高效、更稳定的模型训练。

2025-10-22 14:20:34 796

原创 大模型训练中:混合精度的使用时机

这样既保证了训练效率,又保证了训练稳定性!

2025-10-22 10:19:56 397

原创 大模型的预训练、SFT、蒸馏、lora 本质都是在做对下一个词的预测的校准训练?

简单来说,您的理解是。大模型的预训练、SFT(监督微调)、蒸馏以及LoRA微调,其根本的确实都是基于“下一个词的预测”,但它们在上存在关键差异。下面的表格可以帮您快速把握这几种技术的联系与区别。

2025-10-21 21:26:30 438

原创 minimind数据集样例分析

【代码】minimind数据集样例分析。

2025-10-21 14:39:23 128

原创 DPO、PPO和GRPO对比分析

DPO、PPO和GRPO这三种算法在训练数据的格式、来源和使用方式上存在,因此它们所使用的数据集通常。这些差异源于它们各自独特的工作原理和目标。为了让你能快速把握全局,下表清晰地对比了这三种算法在数据集方面的核心区别。状态-动作-奖励。

2025-10-21 09:31:13 338

原创 本地单卡从零训练大模型:minimind项目学习总结

A[手动设定核心架构参数] --> B{是否启用GQA/MQA?A --> C[计算总参数量<br>params]subgraph A [手动设定的核心架构参数]A1[len_vocab<br>词表长度]A2[n_layers<br>模型层数]A3[d_model<br>模型维度]A4[q_heads<br>查询头数量]endB -- 是 --> D[手动设定kv_heads<br>KV头数量]B -- 否(标准MHA) --> E[kv_heads = q_heads]

2025-10-20 10:35:29 778 1

原创 网络层数、参数量、数据集大小的关系

在Transformer架构中,网络的层数和参数量与训练数据集大小之间,并非简单的单向决定关系,而是一种需要协同优化的动态平衡。为了让你快速把握核心关系,下表总结了在不同规模数据集下,模型层数与参数量的典型配置策略。

2025-10-18 15:42:19 356

原创 向量检索相关算法应用分析

总而言之,余弦相似度因其在文本语义相似度计算上的优异表现而成为最常用和默认的选择之一,但向量检索领域绝非其一家独大。让相似度度量方法与您的嵌入模型训练目标保持一致。在实际操作中,最好的方法是依据您所选用的嵌入模型的官方文档推荐,并结合具体业务场景进行验证测试。

2025-10-16 10:47:57 444

原创 主流大模型快速应用分析

为了帮助您全面了解当前主流大模型生态,我整理了下面这份详尽的对比分析表。它涵盖了开源与闭源、国内与国外的代表性模型,并从核心原理到实战调参等多个维度进行了梳理。

2025-10-15 21:56:06 764

原创 主流神经网络快速应用指南

下表整理了主流神经网络算法的核心特性,希望能帮助您建立清晰的选择框架。

2025-10-15 21:11:05 972

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除