spark
天青色的瓷
AI算法工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
seaborn.kdeplot绘制图像显示异常问题
背景:在验证数据集的分布情况时,用kdeplot绘制可视化查看,但发现存在锯齿状、脉冲状的异常图像,乍一看是非常令人费解的。个人数据探索的真实案例(spark环境):from scipy.stats import kstestimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 定义函数kde_...原创 2020-04-04 15:01:57 · 3380 阅读 · 0 评论 -
Pyspark中对训练集、测试集、验证集进行KS检验
KS检验的目的:验证数据分布特征的一致性因训练集、测试集、验证集在经过split之后,可能出现特征分布不一致的情况,导致模型训练产生不必要的误差和错误通过scipy.stats库,进行KS检验:(假设正在检验的2个数据集拥有同样的分布特征,α=0.05)import numpy as npimport pandas as pdimport seaborn as snsfrom sci...原创 2020-04-03 22:44:20 · 2607 阅读 · 0 评论 -
pyspark.sql.functions.udf中使用numpy,出现Py4JJavaError错误
背景:pyspark,通过udf定义函数,以辅助添加新列出错原因:udf不能返回numpy类型举例:df.head()Row(artist=‘Martha Tilston’, auth=‘Logged In’, firstName=‘Colin’, gender=‘M’, userId=‘30’, hour=8)# 切割时间,每6个小时为一组get_6hour = udf(lamb...原创 2020-02-15 10:41:56 · 714 阅读 · 0 评论 -
illegalargumentexception: 'unsupported class file major version 57'
背景:MacBook,本地运行spark,遇到此错误user_log.where(user_log.userId== '1002').collect()返回:illegalargumentexception: 'unsupported class file major version 57'报错原因:JDK版本不对,之前安装的JDK是最新版本的JDK13(jdk-13.0.2)解决办...原创 2020-02-10 13:16:17 · 3622 阅读 · 1 评论
分享