xiaoping.huang-优快云博客

原创 Parquet 编码

本文简要介绍一下Parquet编码相关的知识

2025-02-27 21:06:08 624

从这一部分的源码分析，我们可以清楚的了解到Spark的物理计划是被火山模型如何串联起来的，以及底层的RDD是如何把一一对应的，这对于理解每一个物理执行计划的Node至关重要。首先Spark执行模型是火山模型（又叫迭代器模型），通过迭代器模型，Spark会先调用execute方法，execute方法会调用每个Node的doExecute，而从上面的分析我们可以得知每一个doExecute方法的返回类型都是RDD，因为就把每个单独的Node给串联起来了，具体的代码在SparkPlan.execute。

2024-12-15 00:10:50 1222

原创 Spark SQL 执行计划解析源码分析

至此，Spark SQL的执行计划（逻辑计划，物理计划）解析就告一段落，剩下的就是拿到executedPlan开始切分stage，task，申请资源进行调度，执行具体物理计划的逻辑了。本文用于记录Spark SQL执行计划解析的源码分析。文中仅对关键要点进行提及，无法面面具到，仅描述大体的框架。

2024-12-09 20:44:09 554

原创 openLooKeng datacenter connector跨域查询实现原理浅析

前言当公司发展到了一定的规模之后，一般都会有多个数据中心，或者多个机房，在大数据场景下就会涉及到数据会存放在不同的数据中心HDFS上，有时又需要使用多个数据中心的数据一起计算某些业务逻辑，我们可以称之为东数西算，说简单点就是跨机房读取数据。但是跨机房读取数据就会涉及到需要消耗大量昂贵的带宽资源，同时容易影响查询的性能，为此openlookeng 基于移动数据不如移动计算的理念，可以把计算逻辑发送到远端机房集群，让计算更靠近数据，预先在远端机房计算一部分逻辑，再传输少量的数据到本地机房集群进行后续计算，通过

2021-12-08 00:45:10 2080 1

原创 Presto源码解析—从SQL到AST抽象语法树

前面一篇Presto源码解析之提交查询讲了从客户端以Cli方式和JDBC方式提交SQL到Coordinator的原理，这一篇我们来看一下SQL提交到Coordinator是如何进行预处理，是如何从SQL变成AST抽象语法树的。源码时序图如下：接下来我们来详细看一下整个流程中比较重要的类和方法（部分细节会暂时忽略）：QueuedStatementResource：负责处理客户端的Restful请求，包括接收查询，查询执行状态等，关键接口有：URL请求方式作用/v1/statem

2021-09-23 02:35:41 2479 2

原创 Presto源码解析之提交查询

SQL on Hadoop的计算引擎的第一步总是从提交查询开始，只有提交了查询，才有后面一系列的sql解析，优化，调度之类的工作，因此，今天我们来分析一下presto的提交查询是如何进行的（基于prestosql 330版本进行分析）。presto的连接方式可以有两种，分别是CLI形式的和JDBC形式的，分别对应源码中的presto-cli模块和presto-jdbc模块。CLI方式CLI方式的提交也就是命令行的方式，我们可以直接通过这种方式和presto集群进行交互，大多时候是已这种方式来进行测试，

2020-12-20 16:13:22 1077 1

原创容器网络相关知识

容器化是目前的趋势，而容器网络是一块很重要的知识点，也是比较难的内容，涉及到底层的计算机网络等知识，之前实习的时候学过一点，现在整理一下。a、docker的原生网络docker提供三种原生网络，在安装的时候就会自动在host创建三个网络，用 docker network ls 命令查看，分别是：bridge、host、none。在创建容器的时候可以通过–network=none/host/bridge 来指定使用哪一种网络。none网络：什么都没有的网络，这个网络的容器只有一个lo网卡，是一个网络封闭

2020-05-09 19:46:18 658

qq_38348841的博客

原创 Parquet 编码

原创 Spark执行计划解析后是如何触发执行的？

原创 Spark SQL 执行计划解析源码分析

原创 openLooKeng datacenter connector跨域查询实现原理浅析

原创 Presto源码解析—从SQL到AST抽象语法树

原创 Presto源码解析之提交查询

原创容器网络相关知识

原创借助ApplicationListener进行Quartz和SpringBoot整合

原创作业调度Quartz简介与案例

原创大数据之Hadoop基础入门

原创 Springboot项目中遇到的NullPointException

原创 Spark 合并小文件失败出现IOException ：No space left on device 定位

原创分布式消息系统之kafka

原创 zookeeper是如何保证创建的节点是唯一的？

原创 zookeeper学习笔记

原创使用左连接一句话实现四张表的关联查询

原创 Java虚拟机运行时数据区简介

原创 InnoDB存储引擎学习总结

原创单例模式实现方式

原创 JVM之垃圾收集算法

原创 java类加载过程

原创 Hibernate与MyBatis的简介与区别

原创学习c3p0连接池的原理与使用总结

原创 finally里面的代码一定会执行吗？

原创采用贪心算法解决分数背包问题

原创创建格式化字符串

原创 23种设计模式笔记

原创 String基础错误总结

空空如也

空空如也