
特征处理
文章平均质量分 76
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
【JAVA算法系列】中缀表达式转换为后缀表达式的算法示意图代码示例
java python中缀表达式转换为后缀表达式的算法示意图代码示例原创 2023-12-02 12:02:15 · 1070 阅读 · 0 评论 -
【Scala统计学系列】scala spark ChiSqTest Statistics卡方统计用法示例源码详解
spark ChiSqTest Statistics卡方统计用法示例源码详解原创 2023-10-25 09:11:21 · 211 阅读 · 0 评论 -
【Spark原理系列】 SparseVector原理示例源码分析
Spark中的`SparseVector`是一个表示稀疏向量的类。它使用两个数组来存储非零元素的索引和对应的值,从而节省了内存空间。原创 2023-09-14 23:11:34 · 378 阅读 · 0 评论 -
【spark原理系列】 DenseVector原理示例源码分析
构造一个稠密向量,使用给定的值数组作为参数。size: Int:返回向量的大小。:返回向量的字符串表示形式。:将向量转换为值数组。:将向量转换为Breeze库中的向量。:获取指定索引处的元素值。:复制向量,返回新的实例。:对向量中的每个非零元素执行指定的操作。:判断向量是否与另一个对象相等。:计算向量的哈希码。:返回向量中非零元素的数量。:返回向量中非零元素的数量。:将稠密向量转换为稀疏向量。:返回向量中最大元素的索引。:从实例中提取值数组。原创 2023-09-14 00:00:25 · 185 阅读 · 0 评论 -
【spark ML系列】Spark MLlib中的Bucketizer场景用法示例源码解析
Bucketizer将连续特征的列映射到特征桶的列。原创 2023-09-08 23:11:31 · 195 阅读 · 0 评论 -
【Spark ML系列】Binarizer场景用法示例源码分析
`Binarizer` 是 Spark MLlib 中的一个类,用于将连续特征二值化(binarize),根据给定的阈值将连续特征转换为二进制特征。原创 2023-09-08 23:09:40 · 132 阅读 · 0 评论 -
【Spark ML系列】中的SQLTransformer场景用法示例源码解析
`SQLTransformer`实现了由SQL语句定义的转换。原创 2023-09-08 23:08:28 · 189 阅读 · 0 评论 -
【Spark ML系列】QuantileDiscretizer场景用法示例源码分析
QuantileDiscretizer是Spark MLlib中的一个特征转换器,用于将连续特征按照分位数进行离散化。它可以将一列连续特征值转换为具有离散级别的特征值,常用于处理连续特征数据,使其能够应用于基于离散特征的机器学习模型。原创 2023-09-08 23:02:34 · 251 阅读 · 0 评论 -
有监督离散化
有监督离散化与无监督离散化相比,主要区别在于使用的信息来源不同。有监督离散化使用了目标变量(标签),将连续特征划分为离散区间时考虑了目标变量的分布情况,因此更适合于需要根据目标变量进行划分的任务。而无监督离散化则独立于目标变量,仅根据特征本身的分布进行离散化。有监督离散化是一种数据预处理技术,用于将连续特征转换为离散的取值。在机器学习和数据挖掘任务中,有时需要将连续特征离散化,以便更好地适应模型的需求或者提高计算效率。等宽离散化将连续特征划分为具有相等区间宽度的离散区间。原创 2023-08-23 23:07:16 · 442 阅读 · 0 评论