
spark
企鹅席地而坐
这个作者很懒,什么都没留下…
展开
-
idea写spark程序时过滤掉INFO信息
编写spark程序时,INFO信息导致过多 导致输出非常不好找,因此给他过滤掉方法一:在代码中加入val spark = SparkSession.builder().appName("xx").master("local").getOrCreate()val sc = spark.sparkContextsc.setLogLevel("ERROR")//log中只会出现error级别的...原创 2019-12-17 15:05:38 · 950 阅读 · 0 评论 -
sparkSQL练习,分析处理篮球运动员数据
题目:(1) 分析2016年 ①②③④ 属性 z-score 排名package zhimport org.apache.spark.sql.SparkSession/** * * @author smallheroic * @Date 2019-12-12 15:18 * */object homework1 { case class nba(Age:Int,...原创 2019-12-16 14:28:05 · 2823 阅读 · 1 评论 -
sparkcore练习_2,各种算子的练习
数据集http://grouplens.org/datasets/movielens/MovieLens 1M Dataset相关数据文件users.datUserID::Gender::Age::Occupation::Zip-codemovies.datMovieID::Title::Genresratings.datUserID::MovieID::Rating::Tim...原创 2019-12-12 22:11:26 · 402 阅读 · 0 评论 -
idea通过maven创建scala项目及编写spark
file->new project->maven->填写gva:配置maven版本,如果配置了镜像则读取自己的setting.xmlnext->finish!!! scala版本一定要对应改成自己安装的版本,dos模式:scala --version将自动生成的.scala文件删除:file->project structurespa...原创 2019-12-12 16:36:16 · 366 阅读 · 0 评论 -
spark中的map-side-join关联优化
将多份数据进行关联是数据处理过程中非常普遍的用法,不过在分布式计算系统中,这个问题往往会变的非常麻烦,因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去,也就是 shuffle 的过程。造成大量的网络以及磁盘IO消耗,运行效率极其低下,这个过程一般被称为 reduce-side-join。如果其中有张表较小的话,我们则可以自己实现在 map 端实现数...原创 2019-12-10 11:39:47 · 332 阅读 · 0 评论 -
spark scala读取文件选取特定列
spark scala读取文件选取特定列wordcount.txt:a,1c,2a,1选取最后一列//选取特定列.val data=sc.textFile("file:///E://table//wordcount.txt").flatMap(_.split("\n")) //按换行符分割文件,把文件分成一行行的.map{ line=> var splits=li...原创 2019-12-08 18:22:15 · 3518 阅读 · 0 评论 -
sparkcore练习_1,RDD转化为RDD[LabelPoint]和map-side-join以及将结果(RDD/dataframe)输出到一个文件保存
数据集net.gz为网络流量数据, 数据集每条记录展现每个连接的信息, 最后一列为攻击的标签(1) 请统计, 出现的攻击类型对应的攻击次数(2) 为了输入给算法, 请将RDD 类型转换为RDD[Labelpoint]( Labelpoint为Spark Vector)(1)不使用labelpoint:package homework.chapter2import org.apac...原创 2019-12-08 18:12:25 · 619 阅读 · 0 评论 -
Spark运行模式的区别
local :就是单机,jobs都在这台机器上运行。standalone:就是说多台机器组成一个集群,然后jobs可以分在多台机器上运行yarn:就是说spark程序运行在yarn上client :就是Jobs在不同机器运行,然后结果返回到这台机器上。cluster : 就是说jobs在不同机器上运行,结果返回到集群中的某一台机器上。...原创 2019-12-06 17:32:59 · 197 阅读 · 0 评论