- 博客(6)
- 收藏
- 关注
原创 Spark调优:驱动器OutOfMemory优化
首先说一下背景,我样本量1万,特征近1000个,用spark计算特征的缺失值比例,最开始想到的是遍历每个特征,分别计算,代码如下。def Identify_Missing(df, columns, all_cnt, missing_threshold=0.80): drop_columns = [] # 计算缺失率 progress_bar = tqdm(columns) for c in progress_bar: # 显示进度 progress_bar.set_descriptio
2020-09-22 22:51:58
663
原创 pyspark回写Vector字段到hive表
出于性能的考虑,在跑模型前通常将数据预处理完毕后,先将组装好的SparseVector特征写入到hive表,这个时候就会遇到怎么用hive表存储复杂类型的Vector了。首先看一下,SparseVector长什么样,有如下两种:# 格式一: Vector.sparse(向量长度,(索引,数值),(索引,数值),(索引,数值),...(索引,数值))SparseVector(10, {0: 1.0, 1: 1.0, 2: 1.0})# 格式二:Vector.sparse(向量长度,索引数组,与索引数
2020-05-16 23:53:59
905
原创 Pyspark动态回写Hive分区表
由于要处理大批量数据,涉及到线上交互,比较看重时效,所以这几个月来一直用pyspark跑模型,遇到很多问题,比如说回写预测结果到hive分区表。下面是第一种尝试,但奇怪地是,分区没有生效,回写的时候会将存量数据全删掉,再插入。# 以dt为分区回写df.write.mode("overwrite").format("orc").partitionBy("dt").saveAsTable("aicloud.cust_features")当时时间紧张,没来得及探索原因,直接尝试了第二种,如下:# 先
2020-05-16 22:56:32
2915
原创 hive报错整理之Malformed ORC file 、Invalid postscript.
java.io.IOException: Malformed ORC file
2016-03-24 11:55:54
18528
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人