
HCIE之路
文章平均质量分 95
邵奈一
全栈工程师、市场洞察者、微信:shaonaiyi888
展开
-
大数据HCIE成神之路之特征工程——特征选择
该方法可以移除数据集中低方差的特征,只有一个参数threshold:float,选填,默认为0,表示指定删除训练集特征的方差的阈值,此处指定的阈值为0.5,即特征方差小于0.5的特征会被删除;利用随机森林方法进行特征选择,特征重要性的得分存在不稳定的现象,这不仅仅是随机森林特有的,大多数基于模型的特征选择方法都存在这个问题。,生成随机数据,利用线性回归模型对生成的数据拟合,建立一个回归模型,通过打印模型的具体形式,观察线性回归各个自变量的系数,也就是每个特征的权重,数值越大的,对应的特征越应该被保留。原创 2024-01-03 23:41:32 · 1132 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(6)——特征编码
通过独热编码,学历特征被转换为一个包含5个维度的二进制向量,每个样本的学历都可以用该二进制向量来表示。对于离散特征可以采用One-Hot编码的方式来处理,使用M位状态寄存器对M个状态进行编码,M个变量用M维表示,每个维度的数值或为1,或为0。每个取值对应一个维度,总共有5个维度,每个维度上的值为1表示该样本的学历属于对应的取值,为0表示不属于该取值。由上述实验结果可知,使用map()函数将原有数据集中的female和male,成功的离散化为1和0。掌握对数据进行有序分类变量的离散化的操作。原创 2023-12-27 23:32:18 · 1215 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(5)——偏态数据处理
答案:计算第三列元素与该列最大值之间的差值的平方根的目的可能是为了进行数据的标准化或者变换,以探索数据的分布特征或进行数据预处理。第一个参数是插入位置的索引,第二个参数是新列的名称,第三个参数是一个列表,包含了要插入的每个行的值。数据集来自开源网络,分别有4个特征表征数据分布的不同特点,中度正偏斜(右偏斜),高度正偏斜(右偏),中度负偏态(左偏态),高度负偏斜(左偏斜)。数据集,对数据进行简单解读和整合后,通过调用平方根法,对数变换,Box-Cox对数据进行转换,对比前后变化,分析3种方法的区别。原创 2023-12-26 23:49:44 · 803 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(3)——特征缩放
当涉及到特征缩放的选择时,我们需要考虑数据的特点以及所使用的机器学习算法。标准化可以消除特征之间的量纲差异,使得数据更易于比较和分析。标准化适用于大多数机器学习算法,特别是那些依赖于距离度量的算法,如支持向量机(SVM)和K近邻(KNN)算法。最小值-最大值归一化是另一种常见的特征缩放方式,它将特征缩放到一个指定的范围(通常是0到1之间)。这种缩放方式可以保留原始数据的分布形状和结构。原创 2023-12-25 23:45:29 · 201 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(2)——异常值处理
这在鸢尾花数据集中是合理的,因为每个类别的名称都不会超过 10 个字符,所以使用这个数据类型的数组可以有效地存储和表示类别名称。splitter可选参数,代表特征划分点选择标准,splitter=best为针对所有特征找出最优的特征划分点,splitter=random为随机的在部分特征中找局部最优的划分点。综上所述,该for循环遍历了鸢尾花数据集中的每个类别,根据类别的索引选择相应的特征数据作为 x 轴和 y 轴,并使用不同的颜色和标签将它们可视化成散点图。然而,需要注意的是,3σ原则是基于。原创 2023-12-17 15:01:58 · 210 阅读 · 0 评论 -
大数据HCIE成神之路之数据预处理(1)——缺失值处理
成神系列教程,大数据HCE成神之路之数据预处理(1)——缺失值处理原创 2023-12-10 21:46:14 · 223 阅读 · 0 评论 -
大数据HCIE成神之路之数学(4)——最优化实验
最小二乘法(Least Square Method),做为分类回归算法的基础,有着悠久的历史。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的参数,并使得预测的数据与实际数据之间误差的平方和为最小。通俗地解释:最小二乘法是一种数学方法,它可以帮助我们找到一条直线,使得这条直线与一些散点数据的距离之和最小。这就像是在一堆点中找到一条最合适的线,使得这条线与所有点的距离之和最小。原创 2023-11-29 23:53:08 · 366 阅读 · 1 评论 -
大数据HCIE成神之路之数学(3)——概率论
概率论是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,在一定条件下必然发生某一结果的现象称为决定性现象。概率论是用来描述不确定性的数学工具,很多数据挖掘中的算法都是通过描述样本的概率相关信息或推断来构建模型。本章节主要实现概率与统计相关的知识点,主要用到的框架是numpy和scipy框架。原创 2023-11-19 15:26:59 · 732 阅读 · 0 评论 -
大数据HCIE成神之路之数学(2)——线性代数
线性代数是一门被广泛运用于各工程技术领域的学科。用线性代数的相关概念和结论,可以极大地简化数据挖掘中相关公式的推导和表述。线性代数将复杂的问题简单化,让我们能够对问题进行高效地数学运算。线性代数是一个数学工具,它不仅提供了有助于操作数组的技术,还提供了像向量和矩阵这样的数据结构用来保存数字和规则,以便进行加,减,乘,除的运算。numpy是一款基于Python的数值处理模块,在处理矩阵数据方面有很强大的功能与优势。因为线性代数的主要内容就是对矩阵的处理,所以本章节主要的内容都是基于numpy进行展开。原创 2023-11-18 23:56:21 · 2275 阅读 · 0 评论 -
大数据HCIE成神之路之数学(1)——基础数学
基础数学知识在数据挖掘领域有着大量的应用,尤其是在算法设计和数值处理方面。本章节的主要目的就是基于Python语言和相应的基础数学模块,实现一些常用的数学基础算法,为进入数据挖掘的学习提供基础支持。本章节使用到的框架主要包括math库,numpy库和scipy库。math库是Python的标准库,提供一些常用的数学函数;numpy库是Python的一个数值计算拓展库,主要用于处理线性代数,随机数生成,傅里叶变换等问题;scipy库主要用于统计,优化,插值,积分等问题的处理。原创 2023-11-17 23:20:32 · 426 阅读 · 0 评论