spark
文章平均质量分 67
大家都叫我船长
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
死磕sparkSQL源码之TreeNode
本文主要介绍了,sparksql中最基础的底层TreeNode类的相关方法,介绍了方法的含义,以及部分scala语法的使用介绍原创 2022-11-23 20:51:33 · 771 阅读 · 0 评论 -
scala之偏函数学习
scala中偏函数的理解,以及对偏函数执行lift后的变化原创 2022-11-20 20:28:17 · 705 阅读 · 1 评论 -
spark中使用ClosureCleaner.clean的目的
When Scala constructs a closure, it determines which outer variables the closure will use and stores references to them in the closure object. This allows the closure to work properly even when it's called from a different scope than it was created in.Sc原创 2022-04-14 14:58:22 · 1372 阅读 · 0 评论 -
spark中 job stage task
原创 2021-12-06 16:46:08 · 1255 阅读 · 0 评论 -
spark任务提交过程代码分析
下图是一个计算π的值的spark程序spark提交任务实例./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-memory 2g --executor-memory 2g --executor-cores 3 ../spark-demo.jar具体各个参数这里我们不详细解释,网上都有spark-submit脚本中调用的是org.apa原创 2020-09-17 10:55:52 · 355 阅读 · 0 评论 -
spark client mode和cluster mode的区别
今天在看SparkSubmit的源码的过程中,发现了,sparksubmit内部对sparkthriftserver的运行模式做了限制,不能通过cluster的模式进行运行,可以看下面的代码段(clusterManager, deployMode) match { case (STANDALONE, CLUSTER) if args.isPython => printErrorAndExit("Cluster deploy mode is currently not原创 2020-09-08 14:12:27 · 1861 阅读 · 0 评论 -
开源OLAP引擎(基于sparkhivethriftserver源码修改)对外提供jdbc接口流程解读
入口demopublic static void main(String[] args) throws ClassNotFoundException, SQLException { Class.forName("org.apache.hive.jdbc.HiveDriver");// Connection conn = DriverManager.getConnection("jdbc:hive2://hostname:10007","admin","12345+"原创 2020-09-03 14:39:08 · 282 阅读 · 0 评论 -
hive cli的实现和sparkhivethriftserver的cli实现对比
Hive cli实现老规矩,从开始启动org.apache.hive.service.server.HiveServer2#main开始看起public static void main(String[] args) { HiveConf.setLoadHiveServer2Config(true); try { ServerOptionsProcessor oproc = new ServerOptionsProcessor("hiveserver2");原创 2020-09-01 20:46:10 · 449 阅读 · 0 评论 -
自研分布式 OLAP系统学习记录
如何实现HA每个节点会启动两个进程,一个是master进程(端口号10008),一个是slave进程(端口号10007),目前已知这两个进程的区别是,一个是提交到yarn上,另外一个是通过local的形式,还有就是两者的jvm内存会有区别,master进程会更加大一点每个进程在启动的时候,根据自己提交的是yarn还是local的模式,如果是yarn的话,就可以成为master节点,会去往ZK的/jdbcUrl下面去注册临时节点(ip:port),如果是local模式的话,会往ZK的/jdbcUrlLo原创 2020-08-21 20:32:30 · 191 阅读 · 0 评论 -
Spark学习笔记
Spark学习笔记主要记录学习spark过程中一些知识点Spark应用程序驱动器:执行器:功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入主要记录学习spark过程中一些知识点Spark应用程序spark应用程序由:一个驱动器原创 2020-08-05 10:24:21 · 179 阅读 · 0 评论 -
scala之implicit学习
不使用implictimport java.io.Fileimport scala.io.Sourceclass RichFile(val file : File) { //定义一个read方法,返回String类型 def read():String = Source.fromFile(file.getPath).mkString}object RichFile{ //隐式转换方法(将原有的File类型转成了file类型,在用的时候需要导入相应的包) //implici原创 2020-07-25 15:05:13 · 196 阅读 · 0 评论 -
spark个人理解
spark是什么?spark算是一个计算框架,可以对大量的数据进行一些操作,前提是将这些数据先转换为RDD,然后主要操作分为两种(transformation和action),transformation主要是将当前RDD转换为另外一种RDD,而action最终会返回结果,类似于获取总数一样。spark的所有操作都是基于RDD进行操作的。spark和hadoop的mapreduce相比的优...原创 2019-04-10 21:04:30 · 229 阅读 · 0 评论
分享