- 博客(8)
- 收藏
- 关注
原创 hive 中复杂 sql 的使用
Hql中生僻的 sql1,一列多行转一行多列create table dev_updated.costomer_wujb5(customer string,product string,monetary string);truncate table costomer;insert into dev_updated.costomer_wujb5 values('Mary'...
2019-04-29 14:10:26
1666
原创 spark中的序列化器
//指定序列化处理类sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") //注册自定义类交给KryoSerializer序列化处理类进行序列化 .registerKryoClasses(Array(classOf[xxxx]))xxxx--->是要进行序列化...
2019-04-29 13:58:43
437
原创 spark优化
Spark调优一,分配更多的资源1,在哪里分配在提交任务时,在这三个参数上分配(--total-executor-cores --executor-memory --driver-memory)2,分配那些资源CPU core 和 memory3,怎么分配4,分配之后有什么效果A, 给executor分配更多的内存...
2019-04-29 13:58:04
211
原创 mr的shuffle和spark的shuffle之间的区别
mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值的 时候会把文件益写到磁盘,溢出的各种小文件会合并成一...
2017-09-19 20:40:40
3989
原创 spark优化
Spark调优一,分配更多的资源1,在哪里分配 在提交任务时,在这三个参数上分配(–total-executor-cores –executor-memory –driver-memory) 2,分配那些资源 CPU core 和 memory 3,怎么分配4,分配之后有什么效果 A, 给executor分配更多的内存,能够减少executor频繁的GC,因为发生频繁的G...
2017-08-29 20:46:16
200
转载 使用spark将从hbase中读取数据
使用spark将从hbase中读取数据 val sparkConf = new SparkConf().setAppName(“xxxx”).setMaster(“local”) //从数据库中读取数据 val sparkTask = SparkTaskDao.findTaskById(sparkConf.get(GlobalConstants.RUN_TASK_ID).toLong
2017-08-18 14:57:53
271
原创 spark中的序列化器
我们在使用spark进行序列化的时候总是习惯于使用继承Java中的Serializable,但是,在spark-2.1.0-bin-hadoop2.7新增了一个比Serializable更加安全高效的序列化器
2017-08-18 14:25:19
350
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人