chy存钱罐-优快云博客

原创批量标准化、模型的保存和加载

批量标准化（Batch Normalization, BN）是一种广泛使用的神经网络正则化技术，核心思想是对每一层的输入进行标准化，然后进行缩放和平移，旨在加速训练、提高模型的稳定性和泛化能力。批量标准化通常在或之后、激活函数之前应用。Batch Normalization（BN）通过对每一批（batch）数据的每个特征通道进行标准化，解决批量标准化的基本思路是在每一层的输入上执行标准化操作，并学习两个可训练的参数：缩放因子γ和偏移量β。

2025-08-14 17:59:53 935

原创反向传播、过拟合与欠拟合

反向传播（Back Propagation，简称BP）算法是用于训练神经网络的核心算法之一，它通过计算损失函数（如均方误差或交叉熵）相对于每个权重参数的梯度，来优化神经网络的权重。前向传播（Forward Propagation）把输入数据经过各层神经元的运算并逐层向前传输，一直到输出层为止。下面是一个简单的三层神经网络（输入层、隐藏层、输出层）前向传播的基本步骤分析。给定输入 xxx 和权重矩阵 W1W_1W1 及偏置向量 b1b_1b1，隐藏层的输出（激活值）计算如下：z(1)=W1⋅x+b1z

2025-08-14 17:52:46 1053

原创激活函数、参数初始化及损失函数

激活函数的作用是在隐藏层引入非线性，使得神经网络能够学习和表示复杂的函数关系，使网络具备非线性能力，增强其表达能力。通过认识线性和非线性的基础概念，深刻理解激活函数存在的价值。如果在隐藏层不使用激活函数，那么整个神经网络会表现为一个线性模型。我们可以通过数学推导来展示这一点。假设：一层网络的情况对于单层网络（输入层到输出层），如果没有激活函数，输出a(1)\mathbf{a}^{(1)}a(1) 可以表示为：a(1)=W(1)x+b(1)\mathbf{a}^{(1)} = \mathbf{W}^{(1)

2025-08-14 17:37:55 1248

原创数据的准备

分数据集和加载器2个步骤~

2025-08-14 17:17:00 916

原创深度学习与神经网络：核心原理及发展脉络

本文系统解析了深度学习与神经网络的核心内容。深度学习作为机器学习的子集，核心差异在于可自动提取特征，无需人工设计，虽因 “黑盒” 特性可解释性弱，但凭借算力提升，能处理多类数据，广泛应用于图像处理、NLP、自动驾驶等领域，推动 “AI+” 跨界融合。其发展脉络清晰：从 20 世纪 50 年代感知机起步，因局限遇冷；80 年代 BP 算法掀起浅层模型热潮；2006 年 “深度学习” 概念确立；

2025-08-14 17:11:41 696

原创深入了解torch框架

大国的游戏，政府支持到位，是未来；AI : Artificial Intelligence，旨在研究、开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统，是一种拥有自主学习和推理能力的技术。它模仿人类大脑某些功能，包括感知、学习、理解、决策和问题解决。AI本质 NLP（说话，听）、CV（眼睛）、自动驾驶、机器人（肢体动作）、大模型三要素：数据、网络、算力① 神经网络：找到合适的数学公式；② 训练：用已有数据训练网络，目标是求最优解；③ 推理：用模型预测新样本；PyTorch，简称Torch

2025-08-11 19:08:35 949

原创 PyTorch的安装

在官方文档里面找到适合你设备的PyTorch版本及对应的安装指令执行即可：https://pytorch.org/get-started/previous-versions/文档中的版本号仅供参考，以实际电脑环境为准浏览器打开链接：https://download.pytorch.org/whl/cu121找到torch，点击进入下载页面，找到适合自己cuda版本的安装包，下载即可（使用迅雷下载比较快）测试：然后再安装torchvision2.0.2，版本号需要和线上安装的版本号一致。

2025-08-11 18:56:46 541

原创无监督学习之K-means算法

本文围绕无监督学习中的K-means算法展开介绍。无监督学习无需真实标签y，仅通过特征矩阵X训练模型，聚类是其代表，核心是将数据划分为“簇内差异小、簇外差异大”的簇，这与需标签的分类算法不同。K-means作为流行聚类算法，目标是将数据划分为K个簇，以簇内样本到质心的距离平方和衡量差异并最小化。其关键概念包括“簇”（无交集的数据组）和“质心”（簇内样本均值）。算法步骤为：随机选K个初始质心，计算样本与质心距离并分配至最近簇，以簇内样本均值更新质心，迭代至质心稳定。

2025-08-06 18:41:16 833

原创逻辑回归：从分类原理到实战应用全解析

逻辑回归是机器学习中常用的分类模型，虽名称含 “回归”，实则为分类算法，广泛应用于二分类问题，如判断瓜的好坏、健康状况等。其原理是将线性回归输出作为输入，经 sigmoid 激活函数处理，得到 [0,1] 区间的概率值，默认以 0.5 为阈值，大于则为正例，小于则为负例。损失函数特性为：y=1 时希望概率值越大越好，y=0 时则希望越小越好，通过梯度下降算法更新参数以减小损失。

2025-08-06 09:07:00 541

原创模型拟合问题全解析：从欠拟合、过拟合到正则化（岭回归与拉索回归）

本文围绕模型拟合问题及解决方案展开。欠拟合因模型简单，无法捕捉数据模式，表现为训练和测试误差均较高；过拟合则因模型复杂，过度学习噪声，呈现训练误差低而测试误差高的特点。正则化是解决过拟合的关键，通过在损失函数中加入惩罚项（L1或L2正则项），控制权重大小，在牺牲部分训练正确率的同时，提升模型泛化能力——既保证一定容错性，又避免权重过小导致模型失效。

2025-08-06 01:33:17 1385

原创梯度下降：从原理到实践，解析机器学习核心优化算法

本文围绕梯度下降展开，先指出正规方程的局限性：当损失函数非凸时，无法确定唯一解；且特征较多时，逆矩阵运算时间复杂度为𝑂(𝑛³)，计算量极大，故梯度下降更常用。梯度下降类似在山地找谷底，沿最陡峭下坡方向逐步移动，其梯度是损失函数对模型参数的偏导数，指引参数调整以减小损失，是通用优化算法。步骤为：随机初始化参数，求梯度，依梯度正负调整参数，判断收敛（损失变化微小或达迭代次数）。学习率影响迭代：过大会震荡，过小则迭代次数多，常设为0.1、0.01等，也可随迭代减小。

2025-08-06 01:19:56 1189

原创最小二乘法MSE

本文介绍了最小二乘法(MSE)的原理与应用。通过构建8×9特征矩阵X和目标向量y，推导最小二乘法的核心公式W=(X^TX)^{-1}X^Ty，并给出Python实现示例。使用sklearn的LinearRegression模型计算得到各特征权重系数，验证了模型预测结果与原始数据的吻合性。结果表明，该线性回归模型能准确拟合给定数据，为预测新样本提供了可靠方法。

2025-08-04 21:04:18 984

原创回归分析：从数据类型到预测模型的核心逻辑

回归的目的是预测数值型的目标值y。最直接的办法是依据输入x写出一个目标值y的计算公式。假如你想预测小姐姐男友汽车的功率，可能会这么计算：写成中文就是：小姐姐男友汽车的功率 = 0.0015 * 小姐姐男友年薪 - 0.99 * 收听公共广播的时间这就是所谓的回归方程（regression equation），其中的0.0015和-0.99称为回归系数（regression weights），求这些回归系数的过程就是回归。一旦有了这些回归系数，再给定输入，做预测就非常容易了。

2025-08-04 20:52:32 1271

原创集成学习方法之随机森林：从原理到实战的深度解析

随机森林（Random Forest）作为 Bagging 的经典代表，通过构建多棵决策树组成的 “森林”，在多个维度引入随机性，最终通过投票或平均实现高精度预测。年龄（age）：用均值填充（x["age"].fillna(x["age"].mean(), inplace=True)）max_features：分裂时考虑的最大特征数，可选 "sqrt"、"log2" 等策略。示例：在泰坦尼克号数据中，某棵树可能基于 "pclass" 和 "age" 进行分裂。

2025-07-31 19:00:27 1144

原创决策树分类：从理论到实战的全解析

决策树是一种基于树形结构的分类算法，通过特征的条件判断逐步划分数据，最终实现分类目标。其核心包括决策节点（特征划分）、叶子节点（分类结果）和树的深度控制。构建方法主要有基于信息增益的ID3算法和基于基尼指数的CART算法。决策树具有可视化强、计算复杂度低等优点，但也存在过拟合风险。实际应用中需通过剪枝、调参（如max_depth）和交叉验证来优化模型性能。在金融风控、医疗诊断等领域广泛应用，未来结合可解释AI和深度学习将有更大发展空间。

2025-07-31 17:56:49 1178

原创从概率到实践：深度解析朴素贝叶斯分类算法

本文系统介绍了朴素贝叶斯算法的理论基础和实际应用。从贝叶斯决策理论、条件概率等数学基础出发，深入解析了朴素贝叶斯的核心原理，包括条件独立性假设、后验概率计算等关键环节。通过西瓜分类和鸢尾花分类等案例，详细演示了算法实现过程，并探讨了拉普拉斯平滑等优化技巧。文章还分析了算法在文本分类、医疗诊断等领域的应用优势，以及半朴素贝叶斯等进阶发展方向。朴素贝叶斯以其计算高效、易于实现的特点，成为处理高维数据的重要工具，展现了概率理论在机器学习中的强大生命力。

2025-07-31 17:26:38 908

原创模型选择与调优：从交叉验证到网格搜索的实践

摘要：本文系统介绍了机器学习中模型评估与调优的核心方法。重点讲解了交叉验证技术（K折、分层K折等）及其在模型稳定性评估中的应用，详细对比了网格搜索与随机搜索两种超参数优化策略的优缺点。以KNN算法为例，演示了从数据预处理、距离度量选择到完整调优流程的实践操作，并提供了避免数据泄露、参数范围设定等实用技巧。文章强调交叉验证与系统性参数搜索是提升模型性能的关键，同时指出理解原理在AutoML时代仍具重要价值。

2025-07-30 19:34:05 968

原创深入探索特征工程：从理论到实践的全面指南

摘要：特征工程是提升机器学习模型性能的关键步骤，通过特征提取、无量纲化预处理和降维等技术优化数据质量。核心工具包括：特征提取：使用DictVectorizer处理混合数据，CountVectorizer/TfidfVectorizer提取文本特征（需结合分词工具如jieba）。无量纲化：标准化（StandardScaler）适用于异常值数据，归一化（MinMaxScaler）适合均匀分布数据。降维：方差过滤（VarianceThreshold）剔除低方差特征，PCA保留主要信息。

2025-07-30 19:16:14 751

原创数据集：机器学习的基石

本文系统介绍了机器学习中的数据准备与处理流程。首先讲解了sklearn内置玩具数据集(如鸢尾花数据集)的特点和使用方法，以及现实世界数据集的处理技巧。接着详细阐述了本地CSV数据的加载与清洗、数据集的划分策略(包括交叉验证和网格搜索)、特征预处理方法(标准化、文本特征提取等)。针对大规模数据，介绍了分块处理和分布式计算方案。此外还涵盖了数据隐私保护、版本管理等重要话题，并以MNIST手写识别为例演示完整流程。文章强调数据质量对模型性能的关键影响，为开发者提供了从数据准备到模型训练的全套实践指南。

2025-07-30 19:04:56 1244

原创从理论到实践：全面解析机器学习与 scikit-learn 工具

机器学习的本质是让计算机通过数据自主学习规律，实现对未知数据的预测和决策。例如，判断一个数字是否为偶数需要明确的数学规则（除以 2 余数为 0），但识别一张图片中的猫却需要通过大量标注数据训练模型，让计算机自动提取毛发、瞳孔等特征。在图像分类任务中，可先用 Scikit-learn 的 PCA 对特征降维，再通过 PyTorch 的 CNN 进行分类，实现效率与精度的平衡。例如，在医疗影像分析中，专家标注一张 CT 扫描可能需要数小时，而半监督学习可以利用大量未标注数据提升模型性能，同时减少人工成本。

2025-07-30 18:57:56 1122

原创计算机视觉技术剖析：轮廓检测、模板匹配及特征点匹配

本文系统介绍了计算机视觉中的三大基础技术：轮廓检测、模板匹配和特征点匹配。轮廓检测通过边缘跟踪和凸包分析实现物体形状提取，广泛应用于工业检测和医学图像分析；模板匹配基于灰度相似度进行区域匹配，适用于字符识别等场景；特征点匹配利用SIFT、ORB等算法实现高精度图像配准，支持三维重建等复杂任务。文章对比了三者的技术特点，指出深度学习与传统技术融合、多模态数据协同处理是未来发展趋势，同时强调数据质量、算法可解释性和实时性优化等关键挑战。这些基础技术的深入理解和合理运用，对提升计算机视觉系统性能具有重要意义。

2025-07-24 22:47:28 1133

原创图像预处理：从像素操作到空间变换，手把手教你搞定 CV 基础流程

图像预处理是计算机视觉和图像处理的关键环节，涵盖图像表示、存储、变换、增强和滤波等技术。通过几何变换和仿射变换调整图像空间结构，运用对比度调整、直方图均衡化等增强技术提升图像质量。线性滤波（均值、高斯滤波）和非线性滤波（中值、双边滤波）在去噪与保留边缘间取得平衡。这些技术在安防监控、医学影像、自动驾驶等领域广泛应用。

2025-07-23 17:33:39 832

原创图像基础：从像素到 OpenCV 的入门指南

本文介绍了图像处理的基础知识和 OpenCV-Python 的核心操作

2025-07-22 23:30:31 1311

原创从 0 开始掌握 Python 数据可视化神器“Matplotlib”

本文系统介绍了Python数据可视化神器Matplotlib的使用方法。从基础概念（Figure、Axes等核心组件）到环境配置（解决中文乱码问题），通过正弦曲线案例演示完整绘图流程。重点讲解5种常用图表（折线图、柱状图、直方图、散点图、饼图）的绘制技巧和定制方法，并分享子图布局、保存高清图片等实用技能。文章强调Matplotlib作为Python可视化"基石"的价值，建议读者先掌握基础功能再逐步优化样式，同时推荐了3D绘图、交互式图表等进阶方向。

2025-07-22 20:56:16 1181

原创深入解析 Pandas：Python 数据分析的强大工具

本文全面介绍了Python数据分析库Pandas的核心功能与应用。Pandas提供了Series和DataFrame两大核心数据结构，支持数据读取、清洗、转换、分组聚合等操作。文章详细讲解了如何使用Pandas处理CSV/Excel数据、处理缺失值与重复值、进行数据筛选与合并、创建数据透视表以及时间序列分析。Pandas与NumPy、Matplotlib等库紧密结合，构建了强大的数据科学生态系统，是金融、科研、商业等领域不可或缺的分析工具。通过掌握Pandas，数据分析师能够高效处理结构化数据，挖掘数据价值

2025-07-22 20:11:22 956 1

原创 NumPy：Python 科学计算的基石

NumPy是Python科学计算的核心库，为高效数值运算提供多维数组对象ndarray及相关功能。其核心优势包括：1）内存连续的ndarray结构支持矢量化运算，性能远超Python原生列表；2）提供丰富的数学函数、线性代数、随机数生成等功能；3）具备广播机制实现不同形状数组的运算。NumPy广泛应用于科学计算、数据分析、机器学习等领域，是SciPy、Pandas、scikit-learn等库的基础。随着计算需求增长，NumPy持续优化性能，未来将更深度集成AI、大数据等技术，并增强易用性。

2025-07-22 19:57:57 794

原创正则表达式：文本处理的强大工具

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。re模块使Python拥有正则表达式功能。

2025-07-22 17:41:36 1340

原创关于模块化编程概念（模块、包、导入）、常见系统模块总结及第三方模块管理

本文系统介绍了Python模块化编程的核心概念与实践方法。主要内容包括：1）模块与包的概念解析，模块是功能单元(.py文件)，包是模块的目录集合；2）多种模块导入方式及适用场景；3）常用内置模块(math/random/datetime等)的功能示例；4）第三方模块管理：pip工具使用、虚拟环境创建、依赖管理文件requirements.txt；5）最佳实践：合理划分功能、命名规范、避免循环导入、文档编写与单元测试。文章强调模块化编程对代码复用、维护性和扩展性的重要性，为Python开发者提供了全面的模块化

2025-07-19 12:57:03 886

原创迭代器与生成器剖析：机制差异、底层逻辑及场景实现全解析

Python迭代器与生成器是处理数据的高效工具。迭代器通过实现__iter__()和__next__()方法实现数据遍历，适合处理集合类数据；生成器则通过yield关键字按需生成数据，节省内存。二者主要区别在于：迭代器侧重数据遍历，生成器适合数据生成；迭代器需保存整个序列状态，生成器则动态产生值；处理大数据时生成器性能更优。实际应用中，应根据需求选择合适工具——遍历现有数据用迭代器，生成大量或无限序列用生成器。掌握二者特性可显著提升Python代码效率。

2025-07-17 17:32:08 737

原创 Python 面向对象编程范式中的类与对象之解析

本文介绍了Python面向对象编程中类和对象的基本概念与应用。类作为对象的蓝图，通过class关键字定义，包含属性和方法；对象是类的实例化结果，具有独立的属性值。属性分为实例属性（对象特有）、类属性（类共享）和私有属性（通过__前缀实现封装）。方法包括实例方法（操作对象）、类方法（@classmethod修饰）和静态方法（@staticmethod修饰）。合理运用这些特性可以构建结构清晰、功能强大的程序，提升代码的可维护性和安全性。

2025-07-16 23:40:17 1201

原创详解 Python 递归函数及装饰器的应用与原理

本文介绍了Python中的递归函数和装饰器函数两种重要编程工具。递归函数通过自我调用来解决问题，适用于阶乘计算、树形结构遍历等场景，但需注意递归深度限制；装饰器函数则在不修改原函数代码的前提下扩展功能，常用于日志记录、性能计时、权限验证等场景，具有较高的灵活性和复用性。文章通过具体代码示例详细说明了两种函数的实现原理、应用方法及注意事项，帮助读者深入理解并掌握这些重要的Python编程技巧。

2025-07-15 19:32:09 800

原创关于python中函数的位置传参、关键词传参及其可变性和解包操作

Python函数参数传递机制解析：本文详细介绍了Python函数中位置传参和关键字传参的特点与使用场景，分析了参数可变性对函数调用的影响，并演示了序列解包和字典解包的操作方法。位置传参简单直观但依赖顺序，关键字传参提升可读性且不受位置限制。文章还强调了可变对象作为参数时可能产生的副作用，以及如何通过解包操作简化函数调用。掌握这些核心概念有助于编写更加高效、灵活的Python代码。

2025-07-14 19:16:19 1330

原创关于 Python 推导式及常见语句、内置函数的梳理

本文系统介绍了Python编程中的核心特性与工具。首先详细讲解了四种推导式（列表、字典、集合、生成器）的语法和使用场景，展示了如何用简洁方式创建数据结构。然后总结了常见语句类型，包括赋值、条件、循环、函数定义等基本语法结构。最后列举了Python丰富的内置函数，涵盖数据类型转换、数学运算、序列操作等功能。这些特性共同构成了Python高效编程的基础，掌握它们能显著提升代码质量和开发效率。文章通过大量示例代码帮助理解，建议通过实践加深对这些工具的理解和应用。

2025-07-11 23:00:12 1004

原创关于复合类型中序列类型、映射类型及集合类型的归纳

Python复合类型主要包括序列类型（字符串、列表、元组）、映射类型（字典）和集合类型（set、frozenset）。序列类型有序存储数据，支持索引和切片操作；字典通过键值对高效存储和访问数据；集合类型处理唯一元素，支持集合运算。每种类型各有特点：列表可变，元组不可变；字典查找高效；集合自动去重。实际开发中应根据需求选择合适类型，如需要顺序访问用序列，快速查找用字典，去重用集合。掌握这些复合类型的特点和操作方法，能显著提升Python编程效率和代码质量。

2025-07-10 20:45:07 1025

原创 Python 基础变量类型里的字符串与数字类型

本文详细介绍了Python编程中两种基础变量类型——字符串和数字。字符串部分涵盖了创建方式、转义字符、格式化输出、拼接与切片操作，以及常用内置函数；数字类型讲解了整数、浮点数、复数及布尔值的特性、运算规则和不同进制表示。文章还阐述了字符串与数字间的相互转换方法，强调掌握这些基础类型对提高编程效率的重要性，为后续学习更复杂的数据结构奠定基础。

2025-07-09 15:24:55 795

原创 conda 环境配置及 IDE（vsCode、PyCharm、Jupyter）开发环境配置

本文介绍了Python开发环境配置指南，涵盖Anaconda、VSCode、PyCharm和Jupyter的安装与配置方法。主要内容包括： Anaconda环境管理（创建/切换虚拟环境、包管理、镜像源配置） VSCode配置（Python扩展安装、解释器选择、代码运行） PyCharm使用（项目创建、解释器配置、Jupyter插件安装） Jupyter Notebook配置（安装、端口/工作目录设置）文章提供了各开发环境的详细配置步骤和常用命令，帮助用户解决Python版本冲突问题，并优化开发体验。

2025-07-08 18:44:44 2255 1

qq_74732076的博客