- 博客(10)
- 收藏
- 关注
原创 Spark调优(一)资源优化篇
关于Spark调优相关事宜,本章先自万物起始之初,集群的资源优化讲起。搭建集群在Spark安装路径下 spark/conf/spark-env.sh配置:SPARK_WORKER_CORES=XXXSPARK_WORKER_MEMORY=XXX提交任务提交任务命令,最好使用脚本化提交,可以在提交任务时,给当前Spark 应用程序足够的资源,提交命令:./spark-submit –...
2019-05-08 20:12:59
253
原创 浅析:Spark中的UDF、UDAF函数(一)
UDF:User-defined Function,用户自定义函数。一般为单输出类型,这里以scala代码为例:/** * @function 自定义UDF————依照姓名字符长短倒排学生姓名,并统计姓名字符长度 * @author Dongh.Wang * 郑重声明,scala中自定义函数需继承UDF类 */ object UDF { def ...
2019-04-25 20:05:48
637
原创 浅析:SparkShuffle 文件寻址
废话不多说,先上分析示意图:文件寻址:关于文件寻址中比较重要的两个对象:mapOutputTracker和BlockMananager。这两个对象都是主从对象m君有两个身份——m-Master(位于driver)和m-Worker(位于Executer)b君亦然——b-Master(位于driver)和b-Slave(位于Executer)。b君负责管理磁盘数据:DiskStore...
2019-04-25 19:22:51
170
原创 Scala六大特性及常用知识点总结(一)
百度百科中对Scala这门语言的简介是这个样子:“Scala是一门多范式的编程语言,一种类似java的编程语言 ,设计初衷是实现可伸缩的语言 、并集成面向对象编程和函数式编程的各种特性。”作为一门基于JVM的编程语言,Scala和Java在很多方面有相似之处。Scala官网总结了它的六大特性,翻译成中文它们分别对应着以下六点:1).Java和Scala可以混编:Scala基于JVM平台...
2019-04-15 21:02:42
4625
2
原创 Python浅析——列举一些Numerical Python的常用函数
Numerical Python,简称 Numpy,是一个开源的Python科学计算库。通过它,我们可以很简单地使用数组、矩阵,以及很多实用的数学函数(涵盖线性代数运算、傅里叶变换和随机数等)。减少了许多编码过程中,无意义的行为。那么,Numerical Python在编码过程中都为我们提供了那些便利呢?首先就是便捷:时间就是金钱,当你费心费力编写的代码他人直接通过Numpy迅速实现,这时...
2019-04-12 19:01:46
947
原创 Python软件安装教程简介——Window+Linux
Python是一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,并在1991年首发公开版。由于这个荷兰人的名字中包含了深受网民喜爱的“GUI”字,因此,在国内,他又有一个亲切的称呼——“龟叔”。相传,1989年圣诞节期间,在阿姆斯特丹的Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC 语言的一种继承;作为Monty...
2019-04-11 19:52:49
232
原创 杂谈:二〇一九,给自己定一下一个小目标,学几句话读两本书走一段路... ...
我自认不是一个封闭自己、不去与外界交流的“coder”,但同样也符合大众对程序员的普遍感官(不擅言谈)。我知道,在现今的时代,一个不善“交际”、“独自上路”的人很难走的长远。为了改变自己,尽快摆脱现今的“单身”状态,遂将自己“浅薄的见解”分享出来,以提高自己的“综合能力”。01在这个追求热点、盲目跟风的互联网时代,我们需要基本的逻辑思维,需要理性思考,但这些需要我们主动追求,而不是依赖义务教...
2019-04-10 21:28:55
299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人