创建SparkSession对象
from pyspark.sql import SparkSession
saprk = SparkSession.builder.appName('log_reg').getOrCreate()
读取数据集
df = saprk.read.csv("./Linear_regression_dataset.csv", inferSchema=True, header = True)
探究性数据分析
df.printSchema()

df.describe().show(3, False)###False 是否全部显示 False 不隐藏

可以使用corr函数检查输入和输出变量之间的相互关系
from pyspark.sql.functions import corr
df.select(corr('var_1','output')).show()

博客介绍了使用Python和Spark构建线性回归模型的过程。包括创建SparkSession对象、读取数据集、进行探究性数据分析,使用corr函数检查变量关系,进行特征工程化,用VectorAssembler合并特征,划分数据集,构建并训练模型,最后在测试数据上评估模型。
最低0.47元/天 解锁文章
1697

被折叠的 条评论
为什么被折叠?



