
大数据学习
XLMN
这个作者很懒,什么都没留下…
展开
-
scala的隐式转换和隐式调用
//隐式转换 /** Scala的隐式转换,其实最核心的就是定义隐式转换函数,即implicit conversion function。 * 它不仅能够简化程序设计,也能够使程序具有很强的灵活性定义的隐式转换函数,只要在编写的程序内引入,就会被Scala自动使用。 * 隐式转换的关键字是implict * 把implict关键字所修饰的函数称为隐式转换函数 * 隐式转换的命名风...原创 2019-06-15 16:44:16 · 642 阅读 · 0 评论 -
spark持久化级别和java的持久化
/** * 持久化操作 */ package com.aura.liu.Dayof20 import org.apache.log4j.{Level, Logger} import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,...原创 2019-06-20 19:44:06 · 155 阅读 · 0 评论 -
共享变量
** //共享变量之广播变量Broadcast ** 广播变量不适合处理那些大变量,其二不适合处理那些频繁更新的值。 package com.aura.liu.Dayof20 import org.apache.log4j.{Level, Logger} import org.apache.spark.broadcast.Broadcast import org.apache.spark.rdd....原创 2019-06-20 22:39:01 · 204 阅读 · 0 评论 -
排序sortByKey,和sortBy
普通排序sortByKey package com.aura.liu.Dayof20 import org.apache.log4j.{Level, Logger} import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.util.AccumulatorV2 import scala.collection....原创 2019-06-20 23:02:12 · 1098 阅读 · 0 评论 -
spark之java代码实现wordcount
package day18test; import org.apache.log4j.Level; import org.apache.log4j.Logger; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.Java...原创 2019-06-22 20:50:58 · 666 阅读 · 0 评论 -
spark调优之资源调优
资源调优 为spark程序提供合理的内存资源,cpu资源等 spark-sumbmit脚本常见参数 1、–conf PROP=VALUE ==》手动给sparkConf指定相关配置,比如–conf spark.serializer=org.apache.spark.serializer.KryoSerializer 2、properties-file FILE ==》如果配置项比较多,或者接收的配...原创 2019-06-24 19:38:00 · 305 阅读 · 0 评论 -
spark之数据倾斜
spark之数据倾斜 什么是数据倾斜 由于数据分布不均匀造成时间差异很大产生的一些列异常现象 常见现象 1、个别task作业运行缓慢 2、莫名其妙的OOM(内存溢出)异常 一、数据倾斜原因 1、针对于个别task作业运行缓慢情况,主要是由于spark作业运行时有两种类型,窄依赖和宽依赖,在进行宽依赖时由于是进行了夸网络传输进行shuffle操作,这是若是某个key值对应数据量过大就会造成这种情况 ...原创 2019-06-24 21:04:09 · 168 阅读 · 0 评论