
spark
学习记录
hongxiao2016
这个作者很懒,什么都没留下…
展开
-
pyspark spark学习记录
创建RDD最简单的方式是使用parallelize方法 intRDD=sc.parallelize((1,2,3,4,5,5)) intRDD.collect() ********************************************* stringRDD=sc.parallelize(["string1","string2","string3"]) stringRDD.co...原创 2019-08-20 07:59:49 · 283 阅读 · 0 评论 -
Spark spark-shell操作
RDD(Resilient Distributed Datasets),弹性分布式数据集,是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低. 创建RDD的两种方法: 1.并行化集合 val data= sc.parall...原创 2019-05-25 23:44:57 · 2613 阅读 · 0 评论 -
Spark 伪分布式环境配置
配置/conf/ cp spark-env.sh.template spark-env.sh export JAVA_HOME=/opt/jdk1.8.0_121 export HADOOP_HOME=/opt/hadoop-2.7.7 export HADOOP_CONF_DIR=/opt/hadoop-2.7.7/etc/hadoop export SPARK_MASTER_...原创 2019-05-25 19:15:34 · 561 阅读 · 0 评论