
机器学习
文章平均质量分 91
Humbunklung
这个作者很懒,什么都没留下…
展开
-
机器学习算法分类
机器学习算法根据不同的分类标准可分为多种类型,以下综合多个来源的权威分类方式,从学习范式、任务目标和模型结构三个核心维度进行系统梳理原创 2025-06-04 15:50:43 · 479 阅读 · 0 评论 -
随机性的起源
本文系统梳理了深度学习和生成式AI中随机性的主要来源,包括模型参数初始化、数据加载与打乱、mini-batch采样、Dropout等正则化方法,以及硬件和底层库实现的差异。文中通过代码示例展示了如何通过设置随机种子提升实验的可复现性,但也指出即使如此,不同硬件和库版本仍可能导致结果微小差异。此外,生成式AI中的采样策略(如top-k和top-p采样)也是随机性的重要体现。理解和合理控制这些随机性,有助于提升模型的可复现性、泛化能力和生成多样性,是机器学习实验和应用中的关键环节。原创 2025-06-02 11:17:07 · 1071 阅读 · 0 评论 -
生成式AI模型学习笔记
本文系统梳理了主流深度生成式模型的类型及其特点,包括能量模型、变分自编码器(VAE)、生成对抗网络(GAN)、流模型、自回归模型、扩散模型和一致性模型。各类模型在生成方式、训练目标、样本质量、采样速度等方面各有优劣。能量模型和 VAE 以概率建模为核心,GAN 通过对抗训练生成高质量样本,流模型强调可逆性和精确似然计算,自回归模型适合序列建模,扩散模型和一致性模型则在高质量生成和高效采样之间取得平衡。生成式模型已广泛应用于图像、文本、音频等领域,并持续推动 AI 技术进步。原创 2025-05-31 12:09:16 · 790 阅读 · 0 评论 -
Transformer 架构学习笔记
Transformer 是一种基于自注意力机制的深度学习模型架构,最初由 Google 在 2017 年提出(论文《Attention Is All You Need》)。它彻底改变了自然语言处理(NLP)领域,并成为 GPT、BERT 等大模型的基础架构。原创 2025-05-24 14:13:44 · 735 阅读 · 0 评论 -
机器学习中的多GPU训练模式
**多GPU训练模式**可以分为两大类:一类是将数据分割后在多个GPU上并行处理;另一类是当模型大小超过单个GPU显存时,将模型分割到多个GPU上处理。数据并行属于第一类,而模型和张量并行则属于第二类。**流水线并行**则融合了这两种模式的思想。除此以外,像`DeepSpeed`、`Colossal-AI`等产品也将多种思想结合,形成了新的混合方案。原创 2025-05-24 14:10:26 · 1177 阅读 · 0 评论 -
通过改进模型减少过拟合现象的技术文档
在监督学习场景下,即使已采用数据增强、交叉验证等与数据集相关的技术,神经网络分类器仍可能因模型复杂度过高或训练策略不当而产生过拟合。本文从模型结构优化、正则化技术、训练策略调整三个方面,系统阐述如何通过改进模型本身及训练流程进一步减轻过拟合影响。原创 2025-05-20 19:49:27 · 912 阅读 · 0 评论 -
从数据层面减少过拟合现象
应用获取更多高质量数据、数据增强、预训练等方法,减少机器学习中的过拟合现象。原创 2025-05-17 14:55:51 · 1113 阅读 · 0 评论 -
机器学习中的过拟合及示例
过拟合(Overfitting)是机器学习模型在训练数据上表现优异,但在新数据(测试集或真实场景)上性能显著下降的现象。其本质是模型过度学习了训练数据中的噪声、随机波动或局部特征,导致泛化能力差。**核心特征**:- 训练误差低,验证/测试误差高。- 模型复杂度过高(例如神经网络层数过多、决策树分支过细)。原创 2025-05-17 12:22:57 · 1111 阅读 · 0 评论 -
彩票假设学习笔记
彩票假设是一个引人入胜的理论,它揭示了深度神经网络中可能存在的、与初始化权重紧密相关的内在结构。它为模型压缩、加速和理解神经网络提供了新的视角。然而,寻找“中奖彩票”的成本、其普适性以及背后的机制仍是当前研究的重点和挑战。尽管存在局限性,彩票假设无疑推动了我们对深度学习更深层次的思考。原创 2025-05-11 14:40:39 · 1129 阅读 · 0 评论 -
小样本学习
小样本学习机器学习的一个重要分支,是一种监督学习方法,它适用于训练集较小且每个标签的样本量都非常有限的情况。本文简单介绍了小样本学习的原理,并用简单的代码进行了举例。原创 2025-05-10 12:37:24 · 1078 阅读 · 0 评论 -
ReLU函数及其Python实现
ReLU(Rectified Linear Unit,修正线性单元)函数是深度学习中常用的激活函数之一。它的定义非常简单:对于输入值xxx,如果xxx大于0,则输出xxx;如果xxx小于或等于0,则输出0。ReLUxmax0xReLUxmax0xfxxifx00ifx≤0f(x) =fxx0ifx0ifx≤0ReLU函数图像如下所示:当输入为负数或零时,输出为零;当输入为正数时,输出等于输入本身。原创 2025-05-02 18:22:53 · 808 阅读 · 0 评论 -
自监督学习的学习笔记
自监督学习(Self-Supervised Learning, SSL)是一种介于监督学习和无监督学习之间的机器学习范式。利用数据本身内在的结构或属性,自动地为无标签数据生成标签(或称为伪标签、代理标签),然后像监督学习一样训练模型。自监督学习是预训练过程,它能够让神经网络以监督学习的方式学习大规模无标签数据集。换句话说,它不依赖于人类手动标注的数据(如图像分类中的“猫”、“狗”标签,或文本情感分析中的“积极”、“消极”标签),而是设计一个代理任务(Pretext Task)原创 2025-05-02 11:13:01 · 1045 阅读 · 0 评论 -
Sigmoid函数简介及其Python实现
Sigmoid 函数(也称为 Logistic 函数)是一个在数学、机器学习(尤其是在逻辑回归和早期神经网络中)广泛使用的函数。它的主要特点是将任意实数输入映射到 (0, 1) 这个开区间内。原创 2025-04-30 23:38:04 · 1822 阅读 · 0 评论 -
表征(Representations)、嵌入(Embeddings)及潜空间(Latent space)
表征是最广泛的概念,指数据的任何编码形式。嵌入是一种特定类型的表征,用于将离散高维数据映射为连续低维稠密向量,并捕捉其潜在关系。所有嵌入都是表征,但并非所有表征都是嵌入。潜空间是这些表征(尤其是嵌入或压缩表征)所处的抽象向量空间。表征向量是潜空间中的点。原创 2025-04-30 21:51:17 · 901 阅读 · 0 评论 -
Softmax 函数简介及其Python实现
Softmax函数主要用于多分类任务,将神经网络的原始输出转换为概率分布,确保每个类别的概率在[0,1]范围内且总和为1。例如,在图像分类中,输出层的Softmax可以将得分映射为各类别的概率,如识别猫、狗、鸟的模型输出可能为[0.1, 0.7, 0.2]。特别地,在多项逻辑回归和线性判别分析中,函数的输入是从K个不同的线性函数得到的结果,而样本向量。• 减去最大值后,指数运算的最大值为( e^0 = 1 ),大幅降低溢出风险。在数学,尤其是概率论和相关领域中,Softmax函数,或称归一化指数函数,是。原创 2025-03-18 20:52:36 · 982 阅读 · 0 评论 -
记一次使用catboost训练不平衡数据
CatBoost 是一种基于梯度提升决策树的机器学习算法,它在处理类别特征方面有独特的优势,并且通常能够提供比其他梯度提升框架更好的性能。下面是一个我最近使用 SMOTE 和 CatBoost 库进行分类任务的基本示例。原创 2024-08-17 21:57:23 · 761 阅读 · 0 评论