墨利昂-优快云博客

数据集获取，数据集导入，导入所需模块，加载数据集，数据预处理（划分数据集，批处理/打包，打乱）（，数据可视化），定义网络，设定参数（模型实例化、损失函数、优化器），保存参数(损失监控回调，模型保存配置)，模型训练，模型评估，加载参数，验证推理。调整策略：结合 Momentum（一阶矩，动量）和 RMSprop（二阶矩，自适应学习率），同时计算梯度的一阶指数移动平均（动量）和二阶指数移动平均（平方梯度），并通过偏差修正消除初始阶段的偏差；学习率仍需手动设置。学习率需手动设置（固定或分段调整），无自适应机制。

2025-10-29 10:38:33 939

原创正则化机制解析：L2 的约束逻辑与 L1 的特征选择

L2 正则化通过在损失函数中引入权重平方和项，以 “惩罚大权重” 的方式限制模型复杂度，同时通过损失权衡机制保护核心变量的合理作用；L1 则通过绝对值惩罚实现特征选择，二者在逻辑与效果上存在本质差异。理解正则化的底层机制，是选择合适策略、提升模型泛化能力的基础。1%3D11。

2025-10-26 22:14:44 703

原创 Pytorch常用API(ML和DL)

数据（张量）→ 模型（nn.Module）→ 损失（nn.Loss）→ 优化器（optim）→ 训练循环（前向传播→反向传播→参数更新）。

2025-10-25 20:04:58 1246

原创 ML 与 DL 常用数据集介绍

在机器学习（ML）与深度学习（DL）的学习和实践中，高质量数据集是算法验证、模型训练与性能评估的基础。选择合适的数据集不仅能降低入门门槛，更能精准匹配任务场景，提升学习效率与模型效果。本文将系统梳理 ML 和 DL 领域的高频常用数据集，按通用基准与领域专用两类分类介绍，为学习者提供清晰的参考指南。

2025-10-25 19:49:14 801

原创深度学习-图像分类问题-核心代码梳理(MindSpore版)

'data_path': './photos/', # 数据存储路径'image_width': 100, # 图片宽度'image_height': 100, # 图片高度'channel': 3, # 图片通道数'num_class':5, # 分类类别'lr':0.0001, # 学习率'epoch_size': 400, # 训练次数'save_checkpoint_steps': 1, # 多少步保存一次模型。

2025-10-25 19:06:22 1140 1

原创 CV之图像特征提取

在讲算法前，得先搞懂一个基础问题：到底什么是图像里的“特征”？其实和生活里的“特点”是一回事——我们认苹果时，会看“圆形、红色、表面光滑”这些特点；AI认苹果，也需要类似的“图像特点”，也就是图像特征。底层特征：比如边缘（苹果的轮廓线）、纹理（苹果皮的纹路）、角点（桌子的拐角），是图像最基础的“零件”；中层特征：由底层特征组合而成，比如“圆形轮廓+红色区域”组成苹果的“外形特征”；高层特征：更抽象的语义，比如“苹果”这个整体概念（CNN学到的就是这种高层特征）。

2025-10-25 16:28:42 1157

原创 CV之图像预处理入门

很多新手刚学预处理时，总想着把所有技术都用上，觉得越复杂越好。其实对ML/DL新手来说，预处理的核心是“适配”——适配数据的问题（暗、歪、噪），适配模型的需求（尺寸、数字分布）。入门阶段不用贪多，先把“灰度变换调亮度、几何变换定大小、滤波去噪、形态学修轮廓”这四招练熟，再根据具体任务（比如文字识别、人脸识别）补充细节。多动手对比不同操作的效果，很快就能找到适合自己数据的预处理方案。

2025-10-25 16:03:02 1084

原创 Git与Gitee使用中的几个问题

mastermaster使用reset命令将本地master强制重置为远程master的最新版本（

2025-10-24 22:51:33 548

原创深度学习一些知识点(指标+正则化)

数据集、矩阵或向量中，大多数元素为零（或空值、默认值），仅极少数元素具有非零（或有效）值的特性，是高维、大规模数据的常见属性。

2025-10-24 19:54:56 866

原创深度学习常用优化器解析

深度学习优化器的演化是对"收敛速度"和"自适应能力"的持续优化：从动量优化器解决SGD的收敛问题，到Adagrad实现学习率自适应，再到RMSprop改进衰减缺陷，最终Adam融合两者优势成为通用选择。在实际应用中，需结合数据特性（稀疏性、平稳性）、模型规模、训练目标（速度/泛化）选择合适的优化器，必要时通过对比实验验证效果。

2025-10-24 19:40:42 1274

原创关于模型结构与参数的文件类型及运行设备

ckpt广泛用于 PyTorch、TensorFlow（早期版本）及MindSpore的模型 checkpoint 文件。主要保存模型的权重参数、优化器状态、训练配置等，支持训练中断后恢复、模型微调或后续导出为部署格式（如 MindSpore 可将.ckpt 转为 ONNX、AIR 等）。.ONNX。

2025-10-22 19:23:49 684

原创针对ML和DL中学代码写不下去&原理看不下去的解决办法

。找一份能运行的、同类型的完整实验代码。不要直接写，而是先为每一行或每个代码块添加详细的注释，强迫自己理解“这里为什么要这么做”。。尝试进行一些极小的、可控的修改。。当小修改得心应手后，尝试替换代码中的某个模块。例如，保持数据预处理和训练流程不变，只替换其中的模型定义部分，换成一个你自己搭建的简单CNN。。在完全理解一份代码后，关上参考代码，尝试仅根据流程图和自己的注释，重新实现它。遇到卡顿的地方，就是你需要重点巩固的“公共主体代码”。。

2025-10-21 21:59:00 1000

原创 ML与DL按任务类型敲代码

ML 实验更侧重传统算法、人工特征工程和轻量级场景，而 DL 实验因模型复杂度更高，更关注网络结构设计、算力优化、迁移学习和生成式任务。两者在探索性、验证性等基础实验中逻辑一致，但 DL 在鲁棒性（如对抗攻击）、跨模态迁移等场景有更独特的实验需求。如果更侧重实际应用场景1. 图像相关应用（处理照片、视频帧等视觉数据）ML 实验简单图像分类（如用 HOG 特征 + SVM 识别 “猫 / 狗”“行人 / 非行人”）；图像聚类（如用 K-means 对商品图片按 “颜色”“形状” 分组）；

2025-10-21 21:51:51 763

原创机器学习和深度学习模型训练流程

两者核心流程（数据处理、训练、评估）一致，但深度学习在模型设计、数据增强、算力依赖、优化细节上更复杂，且更依赖自动化特征提取（减少人工特征工程）；机器学习则侧重传统算法和人工特征设计，适合小规模任务。机器学习和深度学习在代码实现流程上有诸多共通之处，但由于深度学习模型更复杂、依赖算力更强，在部分环节存在显著差异。

2025-10-21 20:04:54 1759

原创自然语言处理NLP的数据预处理：从原始文本到模型输入(MindSpore版)

1. 加载数据# 2. 文本清洗# 3. 分词# 4. 去停用词# 5. 词表构建/加载与映射else:# 6. 长度对齐# 7. 划分与转换。

2025-10-21 19:30:16 881

原创大模型微调：用通俗语言讲清 LoRA、RLHF 等核心技术

微调方法核心特点计算成本数据需求适用场景性能上限全参数微调更新所有参数极高大量学术研究、核心任务最高LoRA低秩矩阵适配，参数高效低中等中小模型、多任务训练高Adapter插入轻量模块，结构灵活中低中等跨任务迁移、模型压缩中高前缀调优训练输入前缀，适配生成任务中中等文本生成、少样本学习中高指令微调遵循自然语言指令，泛化性强中高多样化通用大模型、对话机器人高RLHF人类反馈引导，对齐偏好极高高质量标注顶级对话模型、伦理对齐最高。

2025-10-21 19:18:41 920

原创混合专家模型（MoE）：大模型效率革命的核心密码

最后我们回到开头的问题：MoE到底是什么？它不是什么高深莫测的黑科技，而是把人类社会的“专业化分工”思想，用到了神经网络设计中。从“全能医生”到“专科会诊”，从“稠密模型”到“混合专家”，MoE的出现告诉我们：AI的进步不一定靠“堆参数”，更靠“巧设计”。未来，随着负载均衡、推理优化等技术的突破，MoE大概率会成为大模型的主流架构，让AI在更高效、更精准的道路上越走越远。

2025-10-20 20:00:02 965

原创 Transformer架构：深度学习序列建模的革命性突破

Transformer架构以自注意力机制为核心，通过并行化计算、强长距离依赖捕捉、模块化设计等创新，彻底改变了序列建模的技术路径，成为深度学习领域的基础性架构。从NLP到计算机视觉，从单一模态到多模态融合，Transformer架构的应用场景不断拓展，推动了人工智能技术的快速迭代与发展。尽管当前Transformer架构仍面临着长序列计算复杂度高、小样本学习能力不足等挑战，但基于其核心思想的改进与优化（如稀疏注意力、高效Transformer等）仍在持续推进。

2025-10-20 19:26:49 1665

原创从工具到伙伴：Agent技术如何重塑我们的数字生活

如果我告诉一个程序‘帮我规划一场带父母去云南的一周旅行，预算1.5万，要兼顾老人休息和人文体验，顺便订好门票和民宿’，以前得自己拆分成查攻略、算预算、订酒店等十多个步骤，现在有工具能直接搞定全套流程了。这种“能自主办事”的工具，正是当下AI领域最火的概念之一——。可能你已经在不知不觉中接触过Agent了：比如自动整理邮箱并生成回复建议的邮件助手，能根据你的学习进度调整课程的在线教育系统，甚至是游戏里能自主配合队友作战的AI角色。

2025-10-20 19:17:04 727

原创大模型算法基础：从核心架构到落地逻辑

从底层到上层，大模型的算法逻辑其实很清晰：数学工具（线性代数/概率/优化）→ 基础组件（激活函数/归一化）→ 核心架构（Transformer自注意力）→ 学习策略（预训练+微调）→ 工程优化（分布式/压缩）对于新手来说，不用一开始就钻公式，先抓住“自注意力机制”和“预训练-微调”这两个核心，再逐步深入细节。

2025-10-20 18:42:15 962

原创 Python位置参数与关键字参数的使用

直接填值 → 位置参数：按顺序匹配，简洁但依赖顺序。等式形式 → 关键字参数：按名称匹配，清晰且顺序灵活。根据场景选择：参数少用位置参数，参数多或含义复杂时多用关键字参数，能大幅提升代码可读性。

2025-10-19 15:44:31 380

原创全流程赋能 AI 开发！昇思 MindSpore 六大核心特性

昇思 MindSpore 通过六大关键特性，构建了从算法研究到生产部署的全流程 AI 开发体系，解决了大规模训练性能、硬件算力释放、开发灵活性与安全性等一系列行业痛点。其分布式并行、图算深度融合等技术为千亿参数大模型的研发提供了可能；动静统一与融合编程范式降低了跨场景开发的门槛；AI + 科学计算拓展了 AI 技术的应用边界；企业级安全可信则为关键领域的 AI 应用保驾护航。

2025-10-19 12:17:11 1116

原创 10.17RNN情感分析实验：加载预训练词向量模块整理

预训练词向量加载模块看似是简单的"数据读取-权重赋值"流程，实则是连接通用语义表示与特定任务的关键桥梁。其核心价值不仅在于提供高质量的初始特征，更在于通过合理的实现策略（如静态/动态选择、特殊词处理）平衡模型性能与训练效率。在实际开发中，建议根据数据集规模选择策略：小数据集（≤10万条）采用"静态加载+未登录词优化"；中大规模数据集（≥10万条）采用"动态微调+领域适配"。通过本文的步骤拆解和优化思路，相信能帮助大家构建更高效、更稳定的RNN情感分析模型。

2025-10-19 11:48:24 695

原创 Skip-gram、CBOW 与 Word2Vec 的关系：核心是「包含与被包含」

层级名称核心作用关键关联框架层Word2Vec定义 “词向量学习” 的目标和整体架构（如神经网络、优化目标）包含 Skip-gram 和 CBOW，提供统一的训练范式子模型层CBOW上下文→中心词（聚合输入，预测单个输出）属于 Word2Vec 的实现方式，速度快、适配高频词子模型层Skip-gram中心词→上下文（单个输入，预测多个输出）属于 Word2Vec 的实现方式，效果优、适配低频词。

2025-10-18 19:05:07 563

原创从基础到深入：语音识别技术的完整知识框架与避坑指南

底层（基础）：语音处理（预处理、MFCC 特征提取）+ 概率模型（马尔科夫链、HMM、GMM、EM 算法）；中层（传统方案）：HMM-GMM（训练→解码流程，Viterbi 算法）；顶层（深度学习方案）：混合模型（DNN-HMM、LSTM-HMM）+ 端到端模型（CTC、Seq2Seq+Attention、DFCNN）。先掌握 “语音处理 + 概率模型”：重点理解 MFCC 的提取过程、HMM 的三大问题与解法、EM 算法的原理；

2025-10-18 17:11:33 1107

原创从基础到深入：自然语言处理核心技术全梳理（有 ML/DL 基础）

最后用一张 “极简图谱” 帮你记住整体框架，后续学习新模型时，也能快速定位其在体系中的位置：文本输入 → 词法分析（分词/词性/命名实体识别）→ 文本表示（词向量/关键词）→ 核心建模：① 概率建模（语言模型：N-Gram/NNLM）② 序列建模（概率图：HMM/CRF；深度学习：RNN/LSTM/GRU、TextCNN）→ 复杂任务（Seq2Seq+Attention：机器翻译/聊天机器人/图像描述）NLP 技术迭代很快，但核心逻辑不变 ——所有模型都是为了更好地 “捕捉文本的结构和语义”。

2025-10-18 16:34:26 1334

原创词向量：开启自然语言处理的奇妙之旅

在词类比任务中，GloVe 常常能表现出比 Word2Vec 更优越的性能。对于 “China - Beijing + Washington = USA” 这样的类比推理，GloVe 能够更准确地得出结果，因为它利用了全局统计信息，对词汇间的语义关系把握得更加准确。在文本相似度计算任务中，GloVe 生成的词向量也能更精确地衡量文本之间的语义相似度。然而，GloVe 模型也有一定的局限性。由于。

2025-10-17 18:50:19 802

原创词向量：自然语言处理技术体系的核心基石

准确界定词向量的技术内涵：通过算法将自然语言中的词汇映射到低维实数向量空间，使向量的距离与方向能够对应词汇的语义相似度与关联关系。

2025-10-17 17:38:33 253

原创 PyTorch入门指南：从张量到核心模块的轻松上手

如果你有Python基础，想踏入深度学习框架的大门，PyTorch绝对是值得优先选择的“入门伙伴”。它以简洁直观的API、强大的动态计算图特性，让深度学习建模变得更贴近Python开发者的使用习惯。今天这篇文章，我们就从“为什么选PyTorch”说起，再手把手带你掌握张量操作、核心模块等基础内容，每部分都搭配理论演示案例，帮你快速入门。在深度学习框架领域，PyTorch和TensorFlow是两大主流选择。对于初学者而言，PyTorch的优势尤为明显，我们从核心特性、开发体验、调试效率三个维度做个简单对比：

2025-10-17 11:37:09 998

原创从零看懂昇腾 AI：给初学者的 “AI 技术厨房” 通俗指南

比如你想做一道 “特殊的 AI 菜”（比如某行业的专属计算任务），发现现成的 “料理机（CANN）” 没有对应的 “功能”（比如某种特殊的数学计算），这时候就需要自己做 “专属小厨具”——自定义算子。算子：可以理解为 “特殊的烹饪动作”，比如 “把萝卜切成五角星形状”，现成工具做不了，就得自己做个 “五角星模具”；TBE（Tensor Boost Engine）：就是 “做模具的说明书”，告诉你 “用什么材料、怎么打磨、怎么适配自家灶台”，跟着它，你就能做出符合昇腾 AI 的 “专属算子”。

2025-10-14 23:12:06 1131

原创 AI 小白入门：从 MindSpore 到图像处理、NLP，这些术语其实很简单！

很多同学刚接触 AI 时，看到 “神经网络”“分布式训练” 这类词就犯怵 —— 别慌！今天咱们用最通俗的话，把 AI 学习路径里的关键术语拆解开，帮你快速搭建认知框架，为后续深入学习打基础～

2025-10-14 22:17:17 686

原创给初学者的 AI 算子入门（MindSpore 版）：从听不懂到能上手

如果你刚接触 AI，刷到 “卷积算子”“矩阵乘法算子” 这些词时，是不是总觉得像在看 “密码”？明明每个字都认识，放一起却完全不知道在说啥？其实不用慌 ——AI 里的 “算子” 一点都不神秘，它本质上是 AI 系统里帮我们 “干脏活累活” 的 “小工具”。今天这篇文章，咱们不用公式、不堆术语，从 “你能懂的场景” 出发，把 AI 算子讲明白，最后还教你用 MindSpore 框架上手实操，零基础也能跟着做。

2025-10-14 19:45:42 1208

原创 Git 换行符（LF/CRLF）警告：原因与跨平台配置解决方案

Git 换行符警告问题的本质是不同操作系统换行符规范的差异，以及 Git 为了适配不同系统而进行的自动换行符转换。通过合理设置配置，或者使用文件进行更精细的控制，我们可以有效地解决这一问题，确保团队协作开发时代码版本管理的顺畅，减少因换行符差异带来的不必要麻烦。在实际项目中，建议根据项目的跨平台需求和团队的开发环境，选择合适的解决方案。

2025-10-13 18:13:03 1331

原创神经网络常用激活函数公式

激活函数是神经网络的核心组件，负责为模型引入，使其能够拟合复杂的数据分布（若没有激活函数，多层神经网络会退化为单层线性模型）。

2025-10-12 17:15:59 1012

原创 VGG11实战代码全流程

注：使用MNIST的Fashion-MNIST数据集，28×28 灰度图、60k 训练 + 10k 测试、10 分类，批大小batch_size: 64,学习率lr: 0.001,轮数epoch_size: 20。

2025-10-09 10:15:13 384

原创生成式人工智能（AIGC）入门指南：从技术到行业实践

先体验：找一个简单的 AIGC 工具（比如 ChatGPT、豆包、Stable Diffusion），试着写几个 Prompt，比如 “帮我写一段周末出游计划”“画一只可爱的柯基”，感受它的能力。定方向：想清楚你要用 AIGC 解决什么问题 —— 是帮你写文案？做设计？还是辅助学习？聚焦一个领域，深入练习。多优化：第一次生成的内容不满意，就调整 Prompt，比如补充细节、给示例，慢慢找到让 AIGC “懂你” 的规律。AIGC 不是 “高科技玩具”，而是能帮我们提升效率、释放创意的工具。

2025-10-08 20:02:51 1385

原创入门大模型技术原理：从 “看不懂术语” 到 “理清逻辑” 的学习笔记

作为菜鸡，我现在终于明白：大模型技术原理不是 “天书”，而是 “层层递进的逻辑链”—— 从数据到架构，从训练到应用，每一步都有 “为什么要做” 和 “怎么做” 的答案。刚开始看不懂很正常，不用追求 “一次性全懂”，跟着课程节奏，先抓住 “预训练 - 微调 - 多模态” 这些核心，再慢慢补细节，你会发现 “哦，原来这么回事” 的时刻越来越多。如果现在的你也对大模型一头雾水，不如从 “跑通一个小实验” 开始（比如用 LoRA 微调模型生成文案），看着模型输出结果的那一刻，你会觉得所有努力都值了～

2025-10-08 17:04:38 644

原创新手入门大模型：从 0 到 1 的系统学习指南

作为刚接触大模型的新手，我曾对着 “Transformer”“提示词工程” 这些术语一头雾水，直到系统学完这门课程，才发现它早已把大模型从基础理论到落地应用的逻辑拆解得清晰易懂。这门课就像一张 “大模型学习地图”，覆盖了从认知到实操的全流程，今天就以新手视角，分享我的学习思路和核心收获。刚开始学的时候，我最困惑的是 “大模型到底是什么？和普通 AI 有啥不一样？” 课程用两条线索帮我打通了认知：课程先梳理了人工智能的发展脉络：从 1956 年达特茅斯会议提出 “人工智能” 概念，到机器学习成为核心路径，再到

2025-10-07 12:09:53 1084

原创计算机视觉入门：从基础术语到核心技术，一篇看懂！

让计算机 “看懂” 图像的学科 —— 通过算法提取图像信息，建立 “像素点” 和 “现实内容” 的联系，比如让电脑识别出照片里的猫、区分行人与汽车。

2025-09-29 19:40:44 1137

从入门到入土：一元与多元线性回归分析全攻略

空空如也