
spark core
游九河
每日需更进一步
展开
-
spark 源码编译
./dev/make-distribution.sh --name 2.6.0-cdh5.16.1 --tgz -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0-cdh5.16.1 -Phive -Phive-thriftserver -DskipTests -Pscala-2.11原创 2020-01-07 16:33:52 · 175 阅读 · 0 评论 -
Spark History Server配置及其启动
Spark每提交一次任务就会启动一个web服务,可以在网页中查看任务执行的DAG图,执行花费时间…,随着任务结束而关闭。对于历史任务查看需要另外启动Spark History服务。(1) 修改spark-defaults.conf配置文件该文件在SPARK_HOME/conf/下,新安装的spark中只有spark-defaults.conf.template这个文件,改名为spark-def...原创 2019-10-05 18:08:35 · 1351 阅读 · 0 评论 -
sparkCore 知识点
1. RDD 五大特性A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)O...原创 2019-09-27 16:38:21 · 204 阅读 · 0 评论 -
Spark抽取转换182个用户的轨迹数据到ES,Kibana展示
GeoLife GPS Trajectories该GPS轨迹数据集出自微软研究GeoLift项目。从2007年四月到2012年八月收集了182个用户的轨迹数据。这些数据包含了一系列以时间为序的点,每一个点包含经纬度、海拔等信息。包含了17621个轨迹,总距离120多万公里,总时间48000多小时。这些数据不仅仅记录了用户在家和在工作地点的位置轨迹,还记录了大范围的户外活动轨迹,比如购物、旅游、远...原创 2019-08-29 18:51:24 · 850 阅读 · 0 评论 -
spark -- groupbykey
需求:一组数按类别分组统计spark 实现import org.apache.spark.sql.{Row, SparkSession}object groupbykey { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName("----").master("lo...原创 2019-08-23 15:57:58 · 428 阅读 · 0 评论 -
spark与mysql整合
maven添加msyql 依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <...原创 2019-07-11 16:50:33 · 385 阅读 · 0 评论 -
spark与Elasticsearch整合
maven添加依赖 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-c...原创 2019-07-11 16:40:36 · 919 阅读 · 0 评论 -
RDD -- RDD中获取文件名并加上一列文件名
需求:spark读取文件生成RDD,需要在RDD中加上一列文件名wholeTextFilessc.textFiles() 与 sc.wholeTextFiles() 的区别sc.textFiles(path) 能将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式wholeTextFiles(path)的源码介绍 * Read a directory of tex...原创 2019-06-28 15:58:38 · 1023 阅读 · 0 评论 -
RDD -- flatmap
flatmapflatmap 简单用法 def main(args: Array[String]): Unit = { //设置log级别 Logger.getLogger("org").setLevel(Level.WARN) val conf = new SparkConf().setAppName("WordCountDemo").setMaster("loca...原创 2019-06-26 17:19:03 · 1889 阅读 · 1 评论 -
大数据 -- 数据倾斜
离线计算的数据倾斜问题数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。Hadoop中的数据倾斜主要表现在任务在Reducer阶段会长时间停留在大概99%处不能结束。这时如果仔细查看日志就会发现有一个或者多个reducer执行过程报oom错误或者container加载失败,这时基本可以判断...转载 2019-06-15 09:02:30 · 393 阅读 · 0 评论 -
RDD -- Actions算子
Actions算子Actions算子会触发spark任务提交。一般拍电影时导演都会喊Action,Action有开始之意,这类算子固有开始任务之意。reducecollectcountfirsttaketakeSampletakeOrderedsaveAsTextFilesaveAsSequenceFilesaveAsObjectFilecountByKeyforeach...原创 2019-05-17 17:32:55 · 289 阅读 · 0 评论 -
RDD -- 其他操作
RDD 缓存级别说明MEMORY_ONLY系统默认 数据缓存到内存中MEMORY_AND_DISK优先存储在内存中,当不适合存储在内存中时,会启用磁盘存储MEMORY_ONLY_SER和MEMORY_ONLY都是存储在内存中,不同的MEMORY_ONLY_SER存储的是java 对象,MEMORY_ONLY存储的是反序列的对象MEMORY_AND_DI...原创 2019-05-21 12:15:07 · 206 阅读 · 0 评论 -
RDD -- Transformation算子分析
RDDRDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如...原创 2019-05-15 17:33:20 · 664 阅读 · 0 评论 -
rdd -- topK
需求对100万条在0~1000万之间的数据取 TopK输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,9176...原创 2019-05-09 11:29:06 · 8325 阅读 · 0 评论 -
rdd -- 排序
需求对100万条在0~1000万之间的数据进行统计排序(按次数排序,按数据大小排序)输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,472705...原创 2019-05-08 16:18:41 · 2813 阅读 · 0 评论