
机器学习
文章平均质量分 77
算法
物随心转
子曰:“学而时习之,不亦说乎?”
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
生成对抗网络(GAN)
生成对抗网络(Generative Adversarial Network,GAN)是一种机器学习模型,由生成器和判别器两部分组成,用于生成逼真的图像、文本或音频等内容。GAN的作用主要包括以下几个方面:图像生成:GAN可以生成高质量的逼真图像,可以应用在图像合成、风格转换、视频生成等领域。数据增强:通过生成对抗网络,可以合成更多的数据样本来增加原始数据集的多样性,提高机器学习模型的泛化能力。原创 2024-04-24 21:15:58 · 2123 阅读 · 0 评论 -
卷积神经网络(CNN)
卷积神经网络的基本结构由以下几个部分组成:输入层(input layer),卷积层(convolution layer),池化层(pooling layer),激活函数层和全连接层(full-connection layer)。下面以图像分类任务简单介绍一下卷积神经网络结构,具体结构如下图所示。输入层在处理图像的CNN中,输入层一般代表了一张图片的像素矩阵。可以用三维矩阵代表一张图片。三维矩阵的长和宽代表了图像的大小,而三维矩阵的深度代表了图像的色彩通道。原创 2024-04-17 21:03:12 · 1118 阅读 · 0 评论 -
机器学习之特征工程
特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。特征工程做的好,后期的模型调参更容易甚至不用调参,模型的稳定性,可解释性也要更好。原创 2024-01-11 20:58:51 · 1333 阅读 · 2 评论 -
机器学习之独热编码(One-Hot)
独热编码是指将离散型的特征数据映射到一个高维空间中,每个可能的取值都对应于高维空间的一个点,在这些点上取值为1,其余均为0,因此独热编码也被称为“一位有效编码”或“One-of-K encoding”。回到一开始的例子,性别特征:["男","女"],按照N位状态寄存器来对N个状态进行编码的原理:性别特征:["男","女"](这里N=2 二维数据)男 => 10女 => 01地区特征:["北京","上海,"深圳"](这里N=3,三维数据):北京 => 100上海 => 010。原创 2024-01-11 20:19:39 · 1463 阅读 · 1 评论 -
估计、偏差和方差
统计领域为我们提供了很多工具来实现机器学习目标,不仅可以解决训练集上的任务,还可以泛化。基本的概念,例如参数估计、偏差和方差,对于正式地刻画泛化、欠拟合和过拟合都非常有帮助。原创 2023-09-29 11:50:02 · 1288 阅读 · 0 评论 -
机器学习的超参数 、训练集、归纳偏好
超参数(Hyperparameters)和验证集(Validation Set)是机器学习中重要的概念,用于调整模型和评估其性能。超参数: 超参数是在机器学习模型训练过程中需要手动设置的参数,而不是从数据中学习得到的。这些参数影响模型的学习和泛化能力,例如学习速率、正则化项的强度、模型复杂度等。选择适当的超参数对于模型的性能和泛化能力至关重要。树的数量或树的深度矩阵分解中潜在因素的数量学习率(多种模式)深层神经网络隐藏层数k均值聚类中的簇数。原创 2023-09-29 11:23:27 · 660 阅读 · 0 评论 -
机器学习之数据清洗
数据清洗是机器学习中的一个重要步骤,它涉及对原始数据进行预处理和修复,以使数据适用于机器学习算法的训练和分析。数据清洗的目标是处理数据中的噪声、缺失值、异常值和不一致性等问题,以提高数据的质量和准确性。原创 2023-08-21 21:21:29 · 1559 阅读 · 0 评论 -
机器学习之集成学习
集成学习(Ensemble Learning)是一种机器学习技术,通过结合多个学习器(例如决策树、神经网络、支持向量机等)的预测结果,来达到更好的分类或回归预测性能。集成学习可以通过降低模型的方差,提高模型的稳定性和泛化性能,从而改善预测结果。常见的集成学习方法包括Bagging,Boosting,Stacking等。原创 2023-05-24 21:31:30 · 788 阅读 · 0 评论 -
贝叶斯分类器
在做出风险性决策时尤为需要考虑风险,比如巨额投资的决策,如果采取激进策略可能会带来巨额损失,而保守策略就不会有风险。如果预测对了自然不会带来风险,但是如果做出了激进决策,可是接下来却是亏损状态,那这个决策具有较大的风险,因此给定风险值5;贝叶斯决策的基本理论依据就是贝叶斯公式(式1),由总体密度P(E)、先验概率P(H)和类条件概率P(E|H)计算出后验概率P(H|E),判决遵从最大后验概率。这种仅根据后验概率作决策的方式称为最小错误率贝叶斯决策,可以从理论上证明这种决策的平均错误率是最低的。原创 2023-05-20 11:46:25 · 738 阅读 · 0 评论 -
支持向量机
支持向量机(Support Vector Machine,SVM),是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。原创 2023-05-10 20:15:29 · 628 阅读 · 0 评论 -
决策树的介绍
决策树 (decision tree) 是一类常见的机器学习方法。它是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。例如,我们要对"这是好瓜吗?"这样的问题进行决策时,通常会进行一系列的判断或"子决策"我们先看"它是什么颜色?",如果是"青绿色",则我们再看"它的根蒂是什么形态?",如果是"蜷缩",我们再判断"它敲起来是什么声音?",最后?我们得出最终决策:这是个好瓜.这个决策过程如图所示.原创 2023-05-08 21:53:27 · 498 阅读 · 0 评论 -
模型评估与性能度量
自助法(bootstrapping),对于一个拥有m个样本的数据集D,有放回的进行采样m次,就得到了一个同等规模的D*,显然D*中有的样本会出现多次,有的样本一次都不会出现,可以简单估计,样本在m次采样中始终不被采到的概率是 (1-1/m)^m,取极限得到=1/e =0.368;实际评估的模型与期望评估的模型都是用m个训练样本,而我们仍有1/3的没在训练集出现的数据用于测试,这样的测试结果也称作包外估计(out-of-bagestimate)。错误率是分类错误的样本数占样本总数的比例。原创 2023-04-23 22:14:41 · 733 阅读 · 0 评论 -
经验误差与过拟合
遗憾的是,这样的学习器在多数情况下都不好。然而,当学习器把训练样本学得“太好”时,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会致使泛化性能的下降,这种现象在机器学习中称作“过拟合”,与过拟合相对的是“欠拟合”,欠拟合是指对训练样本的一般性质尚未学好。欠拟合较为容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等,而过拟合问题的解决较为麻烦,也是机器学习面临的关键障碍,各类学习算法都会有针对过拟合的措施,但是过拟合是无法完全避免的,我们能做的只是“缓解”。原创 2023-04-23 21:40:10 · 268 阅读 · 0 评论 -
线性模型的介绍
同时,在机器学习中,我们称 w 和 b 为线性模型的超参数,满足等式条件的(w,b)组合可能不只一种,所有的超参数构成了一个最优参数集合。注意,这里用”尽可能地准确“这个词,是因为在大多数时候,我们是无法得到一个完美拟合所有样本数据的线性方程的,即直接基于输入数据构建的多元线性方程组在大多数时候是无解的。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。,选择一个特定的超参数(w,b),使得模型具备最好的泛化能力,机器学习算法的目的不是解方程,而是获得最好的泛化能力。原创 2023-04-23 20:15:59 · 3224 阅读 · 0 评论 -
MLP算法的介绍
多层感知机:MLP分类器会有一个好的识别率且分类速度更快。但是其训练没有SVM分类快,尤其对于巨大量的训练集。TensorFlow - 什么是感知器(Perceptron)_西西弗Sisyphus的博客-优快云博客神经网络1:多层感知器-MLP - 知乎。原创 2023-03-15 22:28:54 · 5344 阅读 · 1 评论 -
反向传播算法(BackPropagation)
所谓神经网络的训练或者是学习,其主要目的在于通过学习算法得到神经网络解决指定问题所需的参数,这里的参数包括各层神经元之间的连接权重以及偏置等。因为作为算法的设计者(我们),我们通常是根据实际问题来构造出网络结构,参数的确定则需要神经网络通过训练样本和学习算法来迭代找到最优参数组。说起神经网络的学习算法,不得不提其中最杰出、最成功的代表——误差逆传播(error BackPropagation,简称...原创 2020-03-08 16:53:17 · 1983 阅读 · 0 评论 -
神经元模型介绍
目前,深度学习(Deep Learning,简称DL)在算法领域可谓是大红大紫,现在不只是互联网、人工智能,生活中的各大领域都能反映出深度学习引领的巨大变革。要学习深度学习,那么首先要熟悉神经网络(Neural Networks,简称NN)的一些基本概念。当然,这里所说的神经网络不是生物学的神经网络,我们将其称之为人工神经网络(Artificial Neural Networks,简称ANN)貌似...原创 2020-03-08 11:24:08 · 23460 阅读 · 0 评论