
spark
植与恋恋
敲代码呀,加油敲代码啊
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark学习之pyspark中aggregate()的使用
aggregate():这个函数需要三个zeroValue, seqOp, combOp。zeroValue是初始值,形式是(x,y);seqOp和combOP是两个方法,其中seqOp方法是对每个分区操作,然后combOp对每个分区的结果进行操作。 >>> data=[1,2,3,4,5,6,7,8,9] >>> rdd=sc.parallelize(data...原创 2018-11-24 16:17:16 · 2262 阅读 · 0 评论 -
pyspark学习之自定义分区
数据格式: http://bigdata.xiaoniu.com/laoWang bigdata:代表科目 laoWang:代表教师,一个老师可以教授不同的科目 目的: 按照不同的科目,按照访问量教师进行排序。 from pyspark import SparkContext,SparkConf conf=SparkConf() sc=SparkContext(conf=conf) def M...原创 2018-12-02 14:17:56 · 3133 阅读 · 0 评论 -
spark高可用集群搭建
下载压缩包,并解压:http://spark.apache.org/downloads.html 配置环境 vi spark-env.sh export JAVA_HOME=/home/lpp/Desktop/software/jdk1.8.0_73 #指定主节点 export SPARK_MASTER_HOME=HADOOP01 #指定主节点的端口,默认就是7077 export SPARK_M...原创 2019-01-15 19:52:14 · 329 阅读 · 0 评论