
机器学习
文章平均质量分 72
机器学习实例
沿街
沿街
展开
-
基于Python的鸢尾花聚类与分类
图5-2 决策树模型结构。原创 2024-08-01 09:22:00 · 820 阅读 · 0 评论 -
【SHAP解释运用2】基于python的特征选择+XGBoost水库震级回归预测+SHAP解释预测
SHAP绝大数可视化都有,进来看看吧,代码直接复制粘贴。原创 2024-07-19 10:50:12 · 1675 阅读 · 0 评论 -
基于python的决策树分类原理与代码实例(代码直接复制粘贴)
决策树可以被视为一系列if-then规则的集合,从根节点到叶结点的每一条路径都构建了一条规则,路径上的内部结点特征对应规则的条件,叶结点的类别对应规则的结论。注意,如果某个属性A的取值数目较多,则SplitInfo(D,A)的值会较大,导致GainRatio(D,A)的值较小。其中,∣Y∣表示数据集D中不同类别的个数,pk表示数据集D中属于第k个类别的样本占总样本数的比例。基尼系数的值越小,表示数据集D的纯度越高。给定属性A,我们可以计算条件熵H(D∣A),即在属性A的条件下,数据集D的经验条件熵。原创 2024-07-17 20:21:17 · 889 阅读 · 0 评论 -
[集成学习]基于python的Stacking分类模型的客户购买意愿分类预测
图8-1 Stacking分类模型结构。图3-1 缺失值可视化与重复值检测。图5-2 clustermap。图11-2 ROC曲线对比。图12-1 新数据预测结果。图5-1 heatmap。图10-1 预测结果。图11-1 混淆矩阵。原创 2024-07-17 12:14:57 · 1455 阅读 · 1 评论 -
基于python的层次聚类
算法将重复执行计算距离和合并簇的步骤,直到所有数据点都被合并成一个簇,或者达到预设的聚类数目。 是两个簇,x 和 z 分别是这两个簇中的样本点,dist(x,z) 是样本点 x 和 z 之间的距离(通常使用欧氏距离)。合并后的新簇将包含原来两个簇的所有样本点,并作为一个新的簇参与后续的计算。在簇内部,算法会计算任意两个样本点之间的距离,并找到距离最远的两个样本点。接下来,算法会计算原簇中剩余样本点到这两个新聚类中心的距离,并将每个样本点归入离其最近的一个聚类中心所对应的子簇中。将所有数据点归为一个簇。原创 2024-07-16 13:51:24 · 1181 阅读 · 0 评论 -
基于python的随机森林回归预测+贝叶斯优化超参数前后训练效果对比
从结果上看,优化了个寂寞,这和。本身随机森林训练效果就好。原创 2024-07-02 22:32:13 · 897 阅读 · 0 评论 -
【集成学习】基于python的Stacking分类预测
学机器学习时,也是一个分类任务,别人都是单一的分类模型,我当时直接一手集成学习。原创 2024-06-28 10:30:23 · 2402 阅读 · 0 评论 -
【集成学习】基于python的stacking回归预测
Bagging是一种并行式集成学习方法,它通过自助采样法(bootstrap sampling)从原始数据集中生成多个子集,然后在每个子集上训练一个基学习器,并将这些基学习器的输出通过简单投票法或平均法等方式结合起来,形成最终的预测结果。Boosting是一种串行式集成学习方法,它通过改变训练样本的权重,使得先前学习器做错的样本在后续学习器中得到更多的关注,从而逐步提高集成学习的性能。Stacking的核心思想是通过将多个基学习器的预测结果作为新的特征,增加模型的复杂度,从而提高集成学习的性能。原创 2024-06-27 21:45:28 · 1361 阅读 · 0 评论 -
MATALB工具箱实现自适应模糊神经网络预测训练(ANFIS)
从图1-12与图1-13可以看出自适应模糊神经网络对于偏离数据聚集的数据拟合效果极差。如图2-1所示,点击UI的“File”选项,进一步点击“import”,然后选择点击导出方式,即可导出模型一边编程中调用模型。首先确保参与训练的数据集是能够被模糊网络可以识别的类型,本文这里是数值型,如图1-1。图中数据前四列被认定为输入,后一列被认定为输出,所以后面的输入层输入有四个。如图1-10在图中所示区域调参完毕后,点击开始训练。如图1-6在该区域进行隶属度函数选择与调参。如图1-9调整完毕后点击确定。原创 2024-06-11 18:59:09 · 1019 阅读 · 0 评论 -
【SHAP解释运用】基于python的树模型特征选择+随机森林回归预测+SHAP解释预测
听说最近SHAP解释很火,借鉴了几篇文章做了这个基于python的树模型特征选择+随机森林回归预测+SHAP解释预测。原创 2024-06-25 10:54:20 · 6399 阅读 · 19 评论 -
分类、回归与预测的关系误区
尽管分类和回归在目标变量的类型、模型输出和评估指标上存在明显差异,但它们的共同目标是使计算机能够从经验中自我改进,并解决越来越复杂的问题。我身边就有人分不清分类、回归与预测的关系,把回归和预测混为一谈,他们也觉得哪里不对,可也不甚在意。分类(Classification)和回归(Regression)是机器学习中两种主要的预测任务类型,**分类、回归与预测是机器学习领域核心概念,它们紧密相关但又具有各自独特的特征和应用场景**。,例如识别邮件是否为垃圾邮件,这是一个典型的二元分类问题。原创 2024-06-19 12:58:27 · 336 阅读 · 4 评论 -
ANFIS回归示例
之前学习模糊理论时就在纸上计算过自己的最终成绩(模糊理论下),上期试用了ANFIS工具箱,这次试试自己成绩的回归效果。原创 2024-06-12 10:47:06 · 342 阅读 · 0 评论 -
基于python的随机森林多分类模型
如果模型的性能不够好,我们可以调整模型的参数(如决策树的数量、每个决策树的最大深度等)或增加更多的决策树来提高模型的性能。在多分类问题中,随机森林通过构建多个决策树,每个决策树都对数据进行分类预测,最终通过多数投票的方式确定样本所属的类别。综上,随机森林多分类模型通过构建多个基于随机抽样的决策树,并通过多数投票的方式确定样本所属的类别,从而实现了对多分类问题的有效预测。当满足停止条件时,将当前节点作为叶子节点,并根据该节点对应的训练子集中样本的类别分布情况,确定该叶子节点的类别标签。原创 2024-06-25 17:43:58 · 1373 阅读 · 0 评论 -
多种聚类方法实验(matlab)
多种聚类方法实验原创 2024-06-11 07:08:25 · 182 阅读 · 0 评论