
大数据
MENG哥
TO DO!
展开
-
spark 报java.lang.StackOverflowError
spark 广播类报java.lang.StackOverflowError 背景:需要广播一个167M的tree类,所以报栈内存不够解决办法:在spark-submit里加上:(目前由于数据量级小,所以采用local模式运行)spark-submit \$--class bp_beauty_op.beauty_op \$--master local[*] \$--driver-java-options "-Xss256m" \$test-1.0-SNAPSHOT.jar或者在spark-原创 2020-12-14 17:39:09 · 619 阅读 · 0 评论 -
spark HashingTF TFIDF怎样提取出词对应的TFIDF值
1.这个是spark官网的实例代码:import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}val sentenceData = spark.createDataFrame(Seq( (0.0, "Hi I heard about Spark"), (0.0, "I wish Java could use case c...原创 2020-04-03 10:51:19 · 2326 阅读 · 4 评论 -
安装Spark+hadoop,spark、hadoop分布式集群搭建...(亲自搭建过!!)
首先说一下我所用的版本:spark-2.1.1-bin-hadoop2.7.tgz,hadoop-2.7.3.tar.gz,jdk-8u131-linux-x64.rpm,我们实验室有4台服务器:每个节点硬盘:300GB,内存:64GB。 1. 先装java1.8环境:给各个节点上传jdk-8u131-linux-x64.rpm到/home里面。用rpm安装。[root@localhost h原创 2017-11-20 17:58:38 · 15148 阅读 · 3 评论