
spark
文章平均质量分 91
清水阁散人
这个作者很懒,什么都没留下…
展开
-
pyspark学习之——逻辑回归、模型选择与调参
记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下:https://spark.apache.org/docs/2.4.8/ml-classification-regression.html#logistic-regression目录一、二分类 spark的逻辑回归即可以用.原创 2021-12-16 15:47:12 · 6464 阅读 · 0 评论 -
pyspark学习之——特征提取、转换与选择
记录pyspark的MLlib库学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,要么直接翻译过来,要么加上自己的理解。spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-features.html目录一、特征提取1.1 TF-IDF1.1.1 TF1.1.2 IDF1.1.3 实例1.2 Word2Vec二、特征转换2.1 Tokenizer2.2 StopWor.原创 2021-12-14 17:06:44 · 2495 阅读 · 0 评论 -
pyspark学习之——流水线Pipeline
目录一、流水线Pipeline概念二、流水线工作流程2.1 训练过程2.2 测试过程三、Estimator, Transformer, Param实例四、Pipeline实例一、流水线Pipeline概念 spark的流水线受 scikit-learn项目的启发,是对流水线式工作的一种高度抽象,通常可以包含多个机器学习流程,如:源数据ETL、数据预处理工作、指标提取、模型训练、模型验证、预测新数据等多个步骤。包含以下几个步骤:  原创 2021-12-12 19:42:29 · 5175 阅读 · 0 评论 -
pyspark学习之——基本统计
记录pyspark学习篇,学习资料来自spark官方文档,主要记录pyspark相关内容,spark2.4.8官方文档如下: https://spark.apache.org/docs/2.4.8/ml-statistics.html目录基本统计1.相关性1.1 导包1.2 本地向量生成方法1.2.1 生成稠密向量1.2.2 生成稀疏向量1.3 生成实验用本地向量2 假设检验基本统计1.相关性 &nbs.原创 2021-12-12 16:22:43 · 1768 阅读 · 0 评论