
数据挖掘
文章平均质量分 94
GG向前冲
这个作者很懒,什么都没留下…
展开
-
python随机森林分类案例
本文将介绍在数据分析中,一个完整的分析或挖掘的流程是怎么样的,指在帮助读者更好的了解掌握数据分析的整体步骤,通过一个利用随机森林分类器解决一个简单的分类问题:根据客户的年龄、性别和地理位置等特征来预测其购买行为(0表示未购买,1表示已购买),大致展示一个完整的分析流程。本文首先生成了一个模拟的客户数据集,包括年龄、性别、地理位置和购买历史等信息,选择随机森林分类器作为模型进行训练,并使用网格搜索找到最优超参数组合来优化模型。最后输出模型在测试集上的性能指标。原创 2024-03-20 20:49:11 · 1610 阅读 · 1 评论 -
python数据分析之数据标准化
一般所收集到的数据都需要进行数据标准化,因为在数据集中存在许多量纲不同的指标,比如在学生体质数据集中,包含身高(cm)、体重(kg)等身体指标,可以发现两组指标的数据量纲不一致,指标之间的性质、量纲、数量级、可用性等特征均存在差异,这就会导致我们无法直接用其分析研究对象的特征和规律,同时对模型的可靠性也会造成影响。其次数据标准化在深度学习中会被经常使用,其能够减少噪声的同时,加速模型收敛,提高模型的性能和稳定性。原创 2024-03-17 23:42:37 · 5950 阅读 · 0 评论 -
python数据分析之异常值处理
异常值是一种沉默的“杀手”,在你去除缺失值准备开始建模的时候,可能会导致你的模型效果不理想或者是十分糟糕,而又不清楚问题出现在哪,所以对于异常值的处理也是非常重要的,本文将讲解什么是异常值以及异常值的处理。异常值有很多,这里所介绍的是关于数值型的异常值,也可以称为“离散值”。异常值是指在数据集中与其他观测值明显不同的数据点或样本。它们可能是由于测量错误、数据损坏、数据录入错误、系统故障或真实的极端情况等原因而产生。原创 2024-03-16 22:38:59 · 5464 阅读 · 0 评论 -
python缺失值处理方法大全
在一般情况下,我们所收集得到的数据不可能是“完美无暇”的,通常会包含缺失值、异常值等让我们头疼的情况,对于数据挖掘或数据分析,花费时间最长的不是建模方面,反而是在数据清洗阶段。为了保证数据质量以及模型的可靠性,数据清洗就显得尤为重要,本文将重点讲解该如何处理缺失值。缺失值是指在数据集中某些位置或字段缺失数据或信息的情况。在实际的数据收集与记录的过程中,可能由于各种原因导致部分数据缺失。缺失值通常会用“NaN”、“None”或空字符串表示。缺失值一般会对数据分析与建模产生影响,所以需要对缺失值进行处理清洗。原创 2024-03-16 01:27:56 · 4389 阅读 · 1 评论 -
主成分分析(PCA)原理与特征选取
在许多领域中存在着大量数据特征,我们通常需要在海量的数据中提取出有价值的信息,例如如何在众多的数据特征中筛选或者是提取出高度有效的特征指标,而PCA就是一种能够解决此类问题的有效方法。PCA(Principal Component Analysis),即主成分分析方法,主成分顾名思义就是代表一个数据中或者是事件中最重要、最主要的成分。主成分分析是一种使用最广泛的数据降维算法。原创 2024-03-14 23:53:26 · 4619 阅读 · 4 评论