
机器学习和深度学习
文章平均质量分 88
总结机器学习和深度学习中的一些知识
啵啵玩转AI-BigData
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
XGBoost算法模型与使用
XGBoost 非常重要,尤其在分类、回归和排名问题上表现卓越。其实际使用场景包括金融风控、医学诊断、工业制造和广告点击率预测等领域。XGBoost以其高效的性能和鲁棒性,成为许多数据科学竞赛和实际项目中的首选算法,极大提高模型准确性并降低过拟合风险。根据业务逻辑,可以使用其他自定义的方法来将非数值型特征转换为数值型特征。在实际应用中,可以根据数据的性质和问题的要求选择合适的方法。同时,建议使用交叉验证等技术来评估不同的编码方式对模型性能的影响。原创 2024-01-10 10:30:32 · 1302 阅读 · 0 评论 -
降维和聚类理解
SOM不同于传统的聚类算法,它通过在高维输入空间中构建一个低维的自组织网络,将数据点映射到该网络上,并利用竞争学习来实现数据的聚类和可视化。需要注意的是,FCM的结果受到初始中心的选择、聚类数K的选择和停止条件的设置等参数的影响。:对于每个数据点和每个聚类中心,计算数据点属于该聚类的隶属度,通常使用模糊度量函数,如欧氏距离或马氏距离的函数形式。需要注意的是,SOM的性能和结果受到网络结构、学习率、停止条件等参数的选择影响,因此需要仔细调整这些参数以获得最佳的结果。这个过程被称为竞争学习。原创 2023-10-09 10:04:04 · 1329 阅读 · 1 评论 -
EM算法理解
它的基本思想是通过迭代的方式,交替进行两个主要步骤:E步(Expectation Step)和M步(Maximization Step),以最大化似然函数或对数似然函数。需要注意的是,EM算法不保证收敛到全局最优解,因为它的结果取决于初始参数的选择和算法的收敛性质。此外,EM算法对于高维参数空间和复杂的模型可能会收敛较慢,或者陷入局部最优解,因此在实际应用中需要谨慎使用,并可能需要结合其他优化技术或正则化方法。:在这一步,利用E步中得到的隐变量的期望信息,来最大化似然函数或对数似然函数关于参数的期望值。原创 2023-10-06 10:04:57 · 167 阅读 · 1 评论 -
支持向量机理解
支持向量机(Support Vector Machine,SVM)是一种机器学习算法,通常用于分类和回归任务。它的主要目标是找到一个能够将数据点划分成不同类别的最优超平面(或者在回归问题中是最优拟合线),并且在所有可能的超平面中选择最佳的那个。这个最优超平面被定义为能够使不同类别的数据点之间的间隔最大化的超平面。SVM的关键思想是将数据点映射到高维空间中,然后在这个高维空间中寻找最优超平面,以实现更好的分类或回归性能。SVM依赖于支持向量,这些是距离最优超平面最近的数据点,它们对于定义超平面起到关键作用。原创 2023-10-03 13:08:05 · 158 阅读 · 0 评论 -
决策树理解
这个选择的特征将被用来分割数据集,使得在该特征的条件下,数据集的不确定性最小。当一个事件的概率较低时,它的信息量较高,因为它的发生是不太常见的,会带来更多的新信息。在理解决策树中的熵时,可以将其视为一种衡量数据混乱程度的方式,以便在树的分裂过程中选择最能减少混乱的特征。:在树的构建过程中,在每个节点处加入停止分裂的条件,例如限制树的最大深度、限制每个叶节点的最小样本数、限制信息增益的最小值等。从根节点开始,根据特征的值选择合适的分支,一直沿着树的路径走到叶节点,最终确定样本的类别或回归值。原创 2023-10-02 20:38:12 · 171 阅读 · 1 评论 -
机器学习中模型评估理解
它的基本思想是将数据集分成K个相似大小的折叠(或称为折叠),然后将模型训练K次,每次使用K-1个折叠的数据作为训练集,剩下的一个折叠作为验证集。解决类别不平衡问题的方法包括采样技术(如过采样和欠采样)、不同的评估指标(如查准率、召回率、F1分数)、集成方法(如随机森林和梯度提升树)以及使用复杂的模型和算法来处理不平衡数据。过拟合(Overfitting)和欠拟合(Underfitting)是机器学习中常见的两种模型性能问题,它们表示了模型在训练数据和测试数据上的表现不同的情况。原创 2023-10-01 16:01:50 · 270 阅读 · 0 评论 -
主成分分析(PCA)理解
主成分分析(Principal Component Analysis,简称PCA)是一种常用于数据降维和特征提取的数学方法。数据降维:PCA的主要目标是将高维数据转化为低维数据,同时尽可能地保留原始数据的信息。这有助于减少数据的复杂性,降低计算成本,以及更好地可视化数据。线性变换:PCA通过线性变换来实现数据的降维,具体来说,它通过找到数据中的主成分(Principal Components)来构建新的特征空间。主成分是原始特征的线性组合,具有最大的方差,因此保留了最重要的信息。方差最大化。原创 2023-09-30 20:38:40 · 1729 阅读 · 0 评论 -
线性判别分析(LDA)理解
线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的监督学习方法,主要用于降维和分类问题。其基本思想可以总结如下:目标:LDA的主要目标是找到一个线性变换,将原始高维数据映射到一个低维空间,同时最大化不同类别之间的可分性,从而实现降维和分类的双重目标。类别判别性:LDA的关键思想在于最大化不同类别之间的类别判别性,即不同类别的数据在映射后要尽可能分开,同一类别的数据要尽可能聚集在一起。原创 2023-09-29 10:58:27 · 2006 阅读 · 1 评论 -
梯度下降理解
需要注意的是,梯度下降法可能会陷入局部最小值,而不是全局最小值,这取决于初始点的选择以及学习率的调整。此外,针对不同的问题,还有各种改进的梯度下降法,如随机梯度下降(SGD)和自适应学习率方法,可以提高性能并加速收敛。总之,梯度下降在机器学习中的重要性在于它是一种通用、高效的参数优化方法,可以帮助模型学习数据中的模式并不断提高性能。不同的变种,如批量梯度下降、随机梯度下降和小批量梯度下降,可以根据问题的特点进行选择,以实现更好的优化效果。在平坦的区域,收敛速度较慢,而在陡峭的区域,收敛速度较快。原创 2023-09-28 12:42:18 · 351 阅读 · 0 评论 -
损失函数理解
损失函数(Loss Function)是在机器学习和深度学习中的重要概念之一。它是用来衡量模型预测与实际目标之间的差距或误差的函数。损失函数的目标是最小化这个差距,以便通过调整模型的参数来改善模型的性能。在监督学习中,损失函数通常用于评估模型的性能,特别是在训练阶段。损失函数接受两个参数:模型的预测输出和实际目标值。然后,它计算这两者之间的差异,这个差异越小,表示模型的预测越准确。一般来说,损失函数越小,模型的性能越好。不同的机器学习和深度学习任务通常需要使用不同类型的损失函数。原创 2023-09-27 19:24:06 · 194 阅读 · 1 评论 -
代价函数理解
总的来说,尽管二次代价函数在某些情况下仍然有用,但交叉熵代价函数通常在分类问题和深度学习中更为流行,因为它具有更好的性能和数学性质,更适合处理高维数据和深层神经网络。总之,交叉熵代价函数是一种在分类问题中常用的代价函数,它衡量了模型的预测与实际类别标签之间的不确定性或信息损失。总之,代价函数在机器学习中起着关键的作用,帮助我们衡量、训练和改进模型,以便更好地适应各种不同的任务和问题。不同的代价函数适用于不同类型的问题,而且代价函数的超参数(如正则化系数)也需要进行调整,以便获得最佳的模型性能。原创 2023-09-26 08:56:39 · 656 阅读 · 0 评论 -
⽣成模型和判别模型的区别,逻辑回归与朴素⻉叶斯的区别, 线性回归与逻辑回归的区别
生成器努力生成更逼真的数据以欺骗判别器,而判别器努力提高其准确性,以识别生成的数据。总之,生成模型和判别模型在机器学习中有不同的应用和任务,选择哪种模型取决于你的具体问题和目标。有时候,这两种类型的模型也可以结合使用,以提高整体性能,例如,在生成对抗网络(GANs)中,生成模型和判别模型相互协作。随着训练的进行,生成器逐渐变得更加精确,生成的数据变得更加逼真,直到达到满意的生成质量。判别器(Discriminator):判别器是另一个神经网络模型,它接受真实数据和由生成器生成的假数据,并试图区分它们。原创 2023-09-25 09:07:00 · 292 阅读 · 1 评论 -
机器学习中分类算法的评估方法
总之,ROC曲线和AUC是评估二元分类器性能的重要工具,它们提供了一个可视化和数值上的指标,用于比较不同模型的性能,特别适用于处理类别不平衡的问题。召回率中的假负例(False Negatives,FN)是指在二元分类问题中,实际上是正类别的样本被模型错误地预测为负类别。在这些情况下,召回率是一个关键的性能指标,因为它衡量了模型能够成功识别的正类别样本的比例,以避免漏诊。不同的问题可能需要不同的指标来评估模型的性能。总之,假负例是召回率计算中的一个重要组成部分,它表示模型漏掉的真正正类别样本的数量。原创 2023-09-24 19:46:20 · 604 阅读 · 1 评论