
数据挖掘
文章平均质量分 90
BigDataMLApplication
spark hadoop flink kafka 海量流批数据处理 、 机器学习、 运筹开发、运维等十年大数据和人工智能搬砖经验,欢迎关注
展开
-
【python ML系列】python knn KNeighborsClassifier 最近邻算法选项用法示例详解
python knn KNeighborsClassifier 最近邻算法选项用法示例详解原创 2023-12-18 18:50:36 · 1390 阅读 · 0 评论 -
【JAVA算法系列】中缀表达式转换为后缀表达式的算法示意图代码示例
java python中缀表达式转换为后缀表达式的算法示意图代码示例原创 2023-12-02 12:02:15 · 1070 阅读 · 0 评论 -
【spark床头书系列】spark-shell 任务提交任务参数选项说明示例源码权威详解
spark-shell 任务提交任务参数选项说明示例源码详解原创 2023-11-27 23:47:23 · 1295 阅读 · 1 评论 -
【Spark ml源码系列】Spark ML 和 Spark MLlib 中vector转换用法用途示例中文源码详解
Spark 中的 Vector 主要用于特征表示、模型输入、特征转换和模型预测结果等机器学习任务中。它提供了一种灵活和方便的方式来处理和操作特征向量,使得在 Spark ML 中进行机器学习任务更加高效和便捷原创 2023-11-24 00:03:34 · 832 阅读 · 0 评论 -
【Spark ML系列】Spark GeneralizedLinearRegression广义线性回归原理用法示例源码详解
Spark GeneralizedLinearRegression广义线性回归原理用法示例源码权威详解原创 2023-11-02 23:57:02 · 255 阅读 · 0 评论 -
【Scala统计学系列】Scala P值定义、P值检验法、P值计算
假设检验问题的p值是由检验统计量的样本观察值得出的的原假设可被拒绝的最小显著性水平。原创 2023-10-31 13:04:29 · 1115 阅读 · 0 评论 -
【Scala统计学系列】 Student‘s t-distribution t分布定义用法示例源码
在概率论和统计学中,学生t-分布(Student’s t-distribution)经常应用在对呈正态分布的总体的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t测定的基础。t检定改进了Z检定(en:Z-test),不论样本数量大或小皆可应用。在样本数量大(超过30)时 [5],可以应用Z检定,但Z检定用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生t检定。在数据有三组以上时,因为误差无法压低,此时可以用变异数分析代替学生t检定。原创 2023-10-31 13:03:23 · 418 阅读 · 0 评论 -
【Scala统计学系列】scala Spark breeze中Gamma伽马分布 ChiSquared卡方分布 用途方法示例源码分析
Spark breeze中Gamma伽马分布 ChiSquared卡方分布 Gaussian高斯分布 用途方法示例源码分析原创 2023-10-27 23:20:15 · 312 阅读 · 0 评论 -
【Spark ML系列】 Kmeans聚类算法由来原理方法示例源码分析
K-means++ 是一种改进的 K-means 聚类算法,旨在选择更好的初始聚类中心点。以下是 Spark 中 K-means++ 的全面介绍。原创 2023-09-21 23:45:47 · 412 阅读 · 0 评论 -
【Spark ML系列】 xgboost原理源码分析
该代码是XGBoost分类模型的实现,它继承了ProbabilisticClassificationModel类,并实现了XGBoostClassifierParams、InferenceParams、MLWritable和Serializable接口。原创 2023-09-14 23:13:46 · 231 阅读 · 0 评论 -
【Spark ML 系列】RandomForestClassifier RandomForestClassificationModel原理用法示例源码分析
Spark ML中的随机森林分类器(RandomForestClassifier)是基于集成学习方法的一种分类模型。它由多个决策树组成,每个决策树都是通过对训练数据进行自助采样(bootstrap)和特征随机选择而生成的。原创 2023-09-14 23:08:58 · 374 阅读 · 0 评论 -
有监督离散化
有监督离散化与无监督离散化相比,主要区别在于使用的信息来源不同。有监督离散化使用了目标变量(标签),将连续特征划分为离散区间时考虑了目标变量的分布情况,因此更适合于需要根据目标变量进行划分的任务。而无监督离散化则独立于目标变量,仅根据特征本身的分布进行离散化。有监督离散化是一种数据预处理技术,用于将连续特征转换为离散的取值。在机器学习和数据挖掘任务中,有时需要将连续特征离散化,以便更好地适应模型的需求或者提高计算效率。等宽离散化将连续特征划分为具有相等区间宽度的离散区间。原创 2023-08-23 23:07:16 · 442 阅读 · 0 评论