
spark
learnbigger
终身学习者
展开
-
idea编写java sparksql ,部署模式为standalone,
1,Hadoop2.9.02,spark2.2.1_2.113,java代码: import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.function.Function;import org.apache.spark.sql.SparkSession;/** * 开启spark程...原创 2019-01-12 13:06:26 · 549 阅读 · 0 评论 -
sparksql 结果写入txt文件,支持多个字段
下列函数完成功能:1,rdd类型转换 :Row2String2,结果支持多个字段写入txt :coalesce(1)3,分隔符由默认的,换成|4,map中支持传入接口和lambda表达式private static void joinCompute() { String sql="select s.sid,s.sname,s.snum,c.cname,c.te...原创 2018-12-12 19:12:03 · 5008 阅读 · 0 评论 -
spark与mapreduce
1,spark为什么称为内存计算模型?第一,不是说spark的数据都加载到内存中进行计算就是内存计算模型了,基于冯诺依曼架构,任何计算不都是加载到内存中计算么?第二个,数据集太大的话,例如到PB级,目前任何内存也处理不了第三,实则是spark会把一部分数据集的子集加载进内存,然后这其中的一部分中间计算的结果存放在内存,方便下一步的计算,而不是大量中间结果写到HDFS中2,spark的计算过程划分s...原创 2018-04-28 16:26:40 · 466 阅读 · 0 评论 -
spark编译注意事项
1,下载的是spark对应版本的源码 SourceCode2,采用的maven构建,所以需要修改maven本地仓库位置,maven国内镜像settings.xml<localRepository>/path/to/local/repo</localRepository><mirror> <id>alimaven</id>...原创 2018-04-27 18:48:51 · 246 阅读 · 0 评论