蜗牛fly-优快云博客

原创 Spark调优：驱动器OutOfMemory优化

首先说一下背景，我样本量1万，特征近1000个，用spark计算特征的缺失值比例，最开始想到的是遍历每个特征，分别计算，代码如下。def Identify_Missing(df, columns, all_cnt, missing_threshold=0.80): drop_columns = [] # 计算缺失率 progress_bar = tqdm(columns) for c in progress_bar: # 显示进度 progress_bar.set_descriptio

2020-09-22 22:51:58 663

原创 pyspark回写Vector字段到hive表

出于性能的考虑，在跑模型前通常将数据预处理完毕后，先将组装好的SparseVector特征写入到hive表，这个时候就会遇到怎么用hive表存储复杂类型的Vector了。首先看一下，SparseVector长什么样，有如下两种：# 格式一： Vector.sparse(向量长度，（索引，数值），（索引，数值），（索引，数值），...(索引，数值))SparseVector(10, {0: 1.0, 1: 1.0, 2: 1.0})# 格式二：Vector.sparse(向量长度，索引数组，与索引数

2020-05-16 23:53:59 905

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

qq_33536353的博客

原创 Spark调优：驱动器OutOfMemory优化

原创 pyspark回写Vector字段到hive表

原创 Pyspark动态回写Hive分区表

原创 hive报错整理之Malformed ORC file 、Invalid postscript.

原创 Hive报错整理02

原创 Hive运行报错整理01

空空如也

空空如也