CDH集群上运行pyspark代码之环境安装——windows配置单机spark环境
PySpark使用需求及使用过程
背景介绍:针对某项业务需求,我在测试数据2000+条上实验,使用单机的python环境(Anaconda)中做了特征提取和模型的训练,效果还可以。我想在全量数据上做特征提取,然后用训练好的模型做预测看看效果。
整个工作的流程大致如下:
windows单机python环境下做实验,包括探索性数据分析、特征提取以及模型训练。
在windows上配置与CDH集群版本相同的单机PySpark环境,并将python代码改为pyspark代码
CDH集群环境的python环境配置,以
原创
2020-08-25 18:16:50 ·
712 阅读 ·
1 评论