
概念及理论
文章平均质量分 63
机器学习的概念和理论
rubyw
Data Analyst
让我们一起愉快地搞数据分析吧!
展开
-
如何选择聚类算法、回归算法、分类算法?
如何选择聚类算法如何选择回归分析算法如何选择分类分析算法原创 2024-11-20 10:58:51 · 416 阅读 · 0 评论 -
自然语言处理与文本分析及挖掘:原理、算法及应用场景介绍
句子语义则需要分析句子结构,例如通过语义角色标注,在句子“小明给小红一本书”中,“小明”是施事者,“小红”是受事者,“一本书”是客体,“给”是动作,这有助于理解句子的核心语义。在英语中,句子通常有明确的语法结构,如主谓宾结构。以句子“I love you”为例,“I”是主语,“love”是谓语动词,“you”是宾语。:英文单词间通常有空格分隔,但也有特殊情况,如缩写(“I’m”需分为“I”和“'m”)和连字符连接的单词(“e - mail”作为一个词),可以用简单规则或正则表达式处理。原创 2024-10-29 19:22:13 · 1368 阅读 · 0 评论 -
机器学习:分类模型常用的评估指标:混淆矩阵、精确率、召回率、F1 score、P-R曲线、ROC曲线、AUC面积、KS曲线
1、混淆矩阵(Confuse Matrix)(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )2、准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。原创 2024-10-22 16:36:35 · 686 阅读 · 0 评论 -
机器学习:回归模型和分类模型的评估方法介绍
回归模型和分类模型评估方法详解一、回归模型评估方法(一)均方误差(MSE)原理均方误差是衡量回归模型预测值与真实值之间平均平方差的指标。它通过计算预测值与真实值之差的平方的平均值来评估模型的性能。其数学公式为:MSE=1n∑i=1n(yi−y^i)2MSE = \frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2MSE=n1i=1∑n(yi−y^i)2其中,nnn是样本数量,yiy_iyi是第iii个样本的真实值,y^i\hat{y}_iy原创 2024-10-10 18:05:21 · 1220 阅读 · 0 评论 -
机器学习:情感分析的原理、应用场景及优缺点介绍
情感分析是自然语言处理中的一个重要任务,主要用于判断文本中所包含的情感倾向,如正面、负面或中性。原创 2024-10-10 18:03:49 · 1112 阅读 · 0 评论 -
机器学习:序列模式算法的原理、应用场景及优缺点介绍
序列模式挖掘是数据挖掘的一个重要分支,主要用于发现数据集中的序列模式,即按照时间或其他顺序排列的事件模式。原创 2024-10-10 17:58:05 · 1368 阅读 · 0 评论 -
机器学习:关联规则:Apriori算法、FP - Growth算法的原理、应用场景及优缺点介绍
关联规则挖掘是数据挖掘中的一个重要任务,用于发现数据集中不同项之间的关联关系。原创 2024-10-10 17:56:36 · 1342 阅读 · 0 评论 -
机器学习:神经网络与深度学习的原理、应用场景及优缺点
深度学习是机器学习的一个分支领域,它通过构建具有多个层次的神经网络来自动学习数据的特征表示。神经网络是深度学习的基本模型结构,模拟了生物神经元之间的信息传递方式。原创 2024-10-10 13:26:10 · 1966 阅读 · 0 评论 -
机器学习:决策树算法:ID3、C4.5、CART、CHAID:原理、应用场景及优缺点
一、ID3算法原理应用场景优点缺点二、C4.5算法原理应用场景优点缺点三、CART算法(分类与回归树)原理 - 分类任务应用场景优点缺点四、CHAID算法原理应用场景优点缺点假设我们有一个数据集用于判断是否购买电脑,数据集如下:原创 2024-10-10 12:56:20 · 1870 阅读 · 0 评论 -
机器学习:朴素贝叶斯算法的原理及应用场景、优缺点简单介绍
朴素贝叶斯是一种基于贝叶斯定理的简单概率分类算法。它假设特征之间相互独立,这是其“朴素”的由来。例如,若有100封邮件,其中60封是非垃圾邮件,那么非垃圾邮件的先验概率。比如在非垃圾邮件类别中,单词“优惠”出现了10次,非垃圾邮件有60封,那么。对于所有类别都是相同的,在比较不同类别后验概率大小时可以忽略。为类别变量(如垃圾邮件和非垃圾邮件类别),为特征向量(如邮件中的单词出现情况)。在分类问题中,我们设。原创 2024-10-09 14:37:00 · 1339 阅读 · 0 评论 -
机器学习特征工程中常用的特征编码方法
哑变量属于独热编码(One - Hot Encoding)的一种通俗说法。原创 2024-10-08 08:56:16 · 946 阅读 · 0 评论 -
给指标打权重的几大方法
给指标打权重的方法有很多,选择适当的方法取决于具体的应用场景和数据特点。通过合理分配权重,可以提高模型的准确性和解释性。原创 2024-07-04 23:46:29 · 1897 阅读 · 0 评论 -
特征处理:WOE分箱
WOE分箱是一种通过将连续变量或分类变量转化为具有区分能力的分箱,并计算每个分箱的证据权重的方法。通过这种方法,可以提高模型的预测能力,特别是在信用评分和风险建模中被广泛应用。原创 2024-07-04 23:43:15 · 1759 阅读 · 0 评论 -
数据处理:分箱
分箱(Binning),也称为离散化(Discretization),是数据预处理中的一种技术,主要用于将连续型变量转换为离散型变量。分箱的主要目的是减少数据的复杂性,增强模型的稳定性和可解释性,特别是在使用一些对连续变量不太敏感的模型时(如决策树)。原创 2024-07-04 23:35:06 · 938 阅读 · 0 评论 -
机器学习十大常用算法的比较:原理及主要特点、优缺点、应用场景
这些算法各有其独特的特点和适用场景,选择合适的算法取决于数据的特性、问题的性质以及需要达到的目标。原创 2024-07-04 22:25:24 · 811 阅读 · 0 评论 -
机器学习:神经网络模型的简单介绍
神经网络(Neural Network,NN)是一种受人类神经系统启发而设计的机器学习模型,特别适用于处理复杂的非线性关系和大规模数据集。它由多层神经元组成,每层神经元通过权重连接到下一层,通过学习调整这些权重来实现从输入到输出的复杂映射关系。原创 2024-07-02 18:20:25 · 478 阅读 · 0 评论 -
机器学习:KNN(K-近邻)算法原理的介绍及应用场景
K近邻算法(K-Nearest Neighbors,KNN)是一种基本且直观的监督学习算法,用于分类和回归任务。其基本思想是基于特征空间中的距离度量,在训练集中找到与新样本最近的K个邻居,然后通过这些邻居的标签来决定新样本的类别或者值。原创 2024-07-02 18:14:50 · 736 阅读 · 0 评论 -
机器学习:SVM支持向量机的原理介绍及应用场景
支持向量机(Support Vector Machine,SVM)是一种常用于分类和回归分析的监督学习模型。它的基本原理是通过找到一个最优的超平面来进行分类或者回归,使得样本点与超平面之间的间隔(margin)最大化。原创 2024-07-02 18:06:21 · 616 阅读 · 0 评论 -
不同集成学习算法的比较:随机森林、AdaBoost、XGBoost、LightGBM
这个表格列出了几种常见的集成学习算法,包括AdaBoost、Gradient Boosting、XGBoost、LightGBM、CatBoost和Random Forest。它们各自的主要特点、应用场景、并行处理支持、稳定性和优化策略有所不同,选择适合的算法取决于具体的数据和任务需求。原创 2024-07-02 17:38:03 · 737 阅读 · 0 评论 -
机器学习:集成学习:LightGBM算法
LightGBM(Light Gradient Boosting Machine)是一个基于梯度提升框架的高效机器学习算法,由微软开发,专门用于大规模数据集和高效率的处理。它通过基于直方图的决策树算法来加快训练速度,提高模型的准确性。以下是关于LightGBM的详细介绍,包括其原理、优势、实现细节以及应用场景。原创 2024-07-02 17:32:39 · 671 阅读 · 0 评论 -
集成学习提升法(Boosting):Adaboost和XGBoost的比较
总体来说,AdaBoost是一种经典的提升算法,简单而有效;而XGBoost则是在此基础上进行了进一步优化和扩展,提供了更高的性能和灵活性,尤其在大规模数据集和复杂模型的处理上有显著优势。原创 2024-07-02 17:27:35 · 1199 阅读 · 0 评论 -
机器学习:集成学习的提升法(Boosting):XGBoost(二)
XGBoost(eXtreme Gradient Boosting)是一种基于决策树的优化的集成学习算法,特别适用于回归和分类问题。它在各种数据集上表现出色,并在数据科学竞赛中被广泛使用。总结来说,XGBoost通过优化提升树的构建过程和模型的正则化,实现了在大规模数据集上高效、准确的预测能力,是目前应用最广泛的集成学习算法之一。原创 2024-07-02 17:25:06 · 422 阅读 · 0 评论 -
机器学习:集成学习的提升法(Boosting):AdaBoost(一)
AdaBoost(Adaptive Boosting)是一种集成学习方法,旨在提高分类器的性能。它通过组合多个弱分类器(通常是决策树)来构建一个强分类器。总结来说,AdaBoost通过反复学习和调整样本权重,使得分类器能够逐步提升准确率,是一种有效的集成学习方法。原创 2024-07-02 16:53:22 · 511 阅读 · 0 评论 -
机器学习:集成算法的装袋法(Bagging):随机森林(Random Forest)
随机森林通过结合多个决策树的结果,提供了强大的预测能力和鲁棒性。它在处理高维数据、抗过拟合和处理缺失值方面具有显著优势,广泛应用于各种分类和回归任务中。通过合理的参数设置和特征选择,随机森林可以在多种应用场景中提供卓越的性能。原创 2024-07-02 16:17:11 · 633 阅读 · 0 评论 -
机器学习:决策树算法的介绍、原理及应用场景——ID3、C4.5、CART
算法特征选择标准支持连续特征支持缺失值树的结构主要应用ID3信息增益否否多叉树分类C4.5增益比是是多叉树分类CART基尼指数 / MSE是是二叉树分类和回归CHAID卡方统计量部分部分多叉树分类MARS逐步回归分裂标准是是分段线性模型回归随机森林多棵树的集成是是集成多棵树分类和回归GBT梯度提升的树集成是是集成多棵树分类和回归不同决策树算法在特征选择标准、支持的特征类型、处理缺失值的能力以及树的结构上存在差异。原创 2024-07-02 11:41:12 · 1232 阅读 · 0 评论 -
机器学习:分类模型的评估指标
在机器学习中,评估分类模型的性能是至关重要的环节。选择合适的评估指标能够帮助我们全面了解模型的表现,尤其是在不同的数据分布和应用场景下。下面详细介绍一些常用的分类模型评估指标。混淆矩阵(confusion matrix)是模式识别领域中一种常用的表达形式。它描绘样本数据的真实属性与识别类型之间的关系,是评价分类器性能的一种常用方法。分类模型对测试集进行预测而得出的准确率并不能很好地反映模型的性能,为了有效判断一个预测模型的性能表现,需要结合真实值,计算出准确率,精确率,召回率,F1值等指标来衡量。原创 2024-07-02 11:10:14 · 1309 阅读 · 0 评论 -
聚类算法的介绍、原理及应用场景—K-means聚类、层次聚类、密度聚类、模型聚类、图聚类
K-means是最常用的聚类算法之一。初始化:随机选择K个数据点作为初始质心。分配数据点:将每个数据点分配给最近的质心,形成K个簇。更新质心:计算每个簇的质心,更新质心位置。迭代:重复步骤2和3,直到质心不再变化或达到最大迭代次数。# 生成示例数据# 训练K-means模型# 预测聚类结果# 可视化聚类结果plt.show()聚类算法在各个领域中有广泛应用。选择合适的聚类算法需要考虑数据的特点和具体的应用需求。对于数据量大且簇形状为球形的情况,K-means 是一种高效的选择。原创 2024-07-02 10:45:45 · 5170 阅读 · 0 评论 -
LDA主题分析的原理、步骤和实现
当然可以!LDA 主题模型是一种强大的工具,用于从大量文本数据中发现隐藏的主题。让我们更详细地介绍它的原理、步骤和实现。原创 2024-07-02 10:15:20 · 877 阅读 · 0 评论 -
机器学习:KNN原理(K-近邻)
为了判定未知样本的类别,以全部训练样本作为代表点,计算未知样本与所有训练样本的距离,并以最近邻者的类别作为决策未知样本类别的唯一依据。KNN模型概述。原创 2024-02-20 11:45:28 · 383 阅读 · 0 评论 -
机器学习:如何评估分类结果
正确率与召回率(Precision & Recall)是广泛应用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。一般来说,正确率就是检索出来的条目有多少是正确的,召回率就是所有正确的条目有多少被检索出来了。。是综合上面二个指标的评估指标,用于综合反映整体的指标。这几个指标的取值都在0-1之间,数值越接近于1,效果越好。我们希望检索结果Precision越高越好,同时Recall也越高越好,但事实上这两者在某些情况下有矛盾的。原创 2024-02-20 10:44:37 · 422 阅读 · 0 评论 -
机器学习:逻辑回归原理
逻辑回归模型是一种广泛应用于分类问题的统计方法。尽管名为“回归”,但它实际上是一种分类算法,主要用于预测观察对象属于某个类别的概率。逻辑回归模型特别适用于二分类问题,但也可以通过一些策略扩展到多分类问题。正则化: 为了防止过拟合,可以使用L1或L2正则化。特征工程: 通过特征选择、特征转换或特征构建来改进模型性能。模型评估: 使用准确率、召回率、F1分数、AUC-ROC曲线等指标来评估模型性能。处理多分类问题: 可以使用“一对一”或“一对多”策略将逻辑回归扩展到多分类问题。原创 2024-02-20 10:35:53 · 543 阅读 · 2 评论 -
梯度下降法
用梯度下降法求解线性回归线性回归的代价函数是凸函数非凸函数和凸函数梯度下降法优化过程原创 2024-01-22 16:55:11 · 370 阅读 · 0 评论 -
特征缩放、数据归一化、数据标准化
特征缩放数据归一化数据标准化原创 2024-01-22 16:48:41 · 396 阅读 · 0 评论 -
防止过拟合的方法
防止过拟合的方法:减少特征增加数据量正则化正则化(Regularized)原创 2024-01-22 15:57:42 · 365 阅读 · 0 评论 -
梯度下降法和标准方程法比较
原创 2024-01-22 15:46:26 · 401 阅读 · 0 评论 -
python一元线性回归sklearn
【代码】python一元线性回归sklearn。原创 2024-01-22 14:16:43 · 651 阅读 · 0 评论 -
相关系数与决定系数
相关系数决定系数原创 2024-01-22 11:29:05 · 433 阅读 · 0 评论 -
数据智能建设全景图
原创 2024-01-17 09:50:08 · 385 阅读 · 0 评论 -
机器学习:线性回归模型的原理、应用及优缺点
线性回归是一种统计学和机器学习中常用的方法,用于建立变量之间线性关系的模型。其原理基于假设因变量(或响应变量)与自变量之间存在线性关系。通过最小二乘法,得到最优的系数,从而建立了线性回归模型。模型的预测值 ( \hat{Y} ) 可以通过将自变量的值带入模型中计算得到。可以使用各种指标来评估模型的性能,如均方误差(Mean Squared Error,MSE)或决定系数(R-squared)。这些指标可以衡量模型对观测数据的拟合程度和预测能力。当存在多个自变量时,模型形式仍然是线性的,只是系数增加了。原创 2024-01-17 09:04:01 · 8148 阅读 · 0 评论 -
机器学习:简要介绍及应用案例
机器学习是一种人工智能(AI)的分支,它致力于研究和开发系统,使它们能够从经验中学习并自动改善。这种学习过程使机器能够适应新的数据,识别模式,做出决策和预测,而无需明确的编程。机器学习的主要目标是通过算法和统计模型,使计算机系统能够执行特定任务而无需明确的规则。这种学习的方式通常分为监督学习、无监督学习和强化学习。在监督学习中,算法从带有标签的训练数据中学习。它学会将输入与相应的输出关联起来,然后用这个关联关系对新的未标记数据进行预测。无监督学习中,算法处理没有标签的数据,试图发现数据中的模式和结构。原创 2024-01-16 16:52:00 · 949 阅读 · 1 评论