1、背景:样本量在2W左右,特征数在1W左右;利用spark 的pca 特征时,总报错 java.lang.OutOfMemoryError: Java heap space;
2、解决方法:
spark.driver.maxResultSize", "40g" 产生的结果大于默认的1024M,需要的话设置大点;
--driver-memory 100g (大点)
本文针对使用Spark进行PCA计算时出现的内存溢出问题,提供了具体的解决方案。通过对任务配置参数的调整,如增大driver内存分配,成功解决了大规模数据集处理过程中的技术难题。
1、背景:样本量在2W左右,特征数在1W左右;利用spark 的pca 特征时,总报错 java.lang.OutOfMemoryError: Java heap space;
2、解决方法:
spark.driver.maxResultSize", "40g" 产生的结果大于默认的1024M,需要的话设置大点;
--driver-memory 100g (大点)
410
299

被折叠的 条评论
为什么被折叠?