zhixingheyi_tian-优快云博客

完整的聚合查询的关键字包括groupby、cube、groupingsets和rollup4种。聚合语句针对同一张表进行sum和count(distinct）查询，最终的执行过程包含了4步聚合操作。在SparkSQL中，聚合过程有4种模式，分别是Partial模式、ParitialMerge模式、Final模式和Complete模式。Complete模式和Partial/Final组合方式不一样，不进行局部聚合计算。

2025-01-17 21:17:05 1000

原创 Presto 源码分析

Presto 源码分析

2025-01-14 16:57:23 237

原创 Presto 源码分析

Presto

2025-01-08 10:23:45 237

原创 Hadoop 生态之 kerberos

轻型目录访问协议（英文：Lightweight Directory Access Protocol，缩写：LDAP，/ˈɛldæp/）是一个开放的，中立的，工业标准的应用协议，通过IP协议提供访问控制和维护分布式信息的目录信息。

2025-01-07 15:58:29 249

原创 Spark Runtime Filter

RuntimeFilter

2024-12-30 14:40:03 593

原创 Spark 之 partitons

【代码】Spark 之 partitons。

2024-12-09 17:13:04 288

原创 Spark SQL 之 QueryStage

ExchangeQueryStageExec 分为两种。

2024-11-22 10:56:09 336

原创 Spark 之 SparkSessionExtensions

【代码】Spark 之 SparkSessionExtensions。

2024-11-20 15:38:03 439

原创 Spark SQL corner case

null 既不参与 IN 表达式的计算，也不参与 NOT IN 表达式的计算，如果数据中存在 null ，则这两个表达式。得到的结果之和并不等于总的数据结果。

2024-11-18 20:00:34 141

原创 Spark 之 EnsureRequirements

【代码】Spark 之 ensureDistributionAndOrdering。

2024-11-18 17:34:13 252

原创 github actions

这是资源找不到，网络原因导致。

2024-11-15 20:56:40 220

原创 Spark 之 Cache

这种情况是RDD的数据经过缓存，此时不需要网络传输，是最优locality。数据与Task在同机架的不同节点，此时需要通过网络传输，速度比NODE_LOCAL慢。数据和Task可能在集群的任何地方，性能最差，一般出现这种情况就该排查原因了。数据从哪访问都一样，相当于没有数据本地性，一般值从外部数据源读取数据。（1）数据和Task在同一节点上的不同executor中；即数据和Task在同一个Excutor JVM中。（2）数据HDFS和Task在同一个结点上，要处理的数据在同一个本地进程，

2024-11-13 11:49:08 415

原创 Spark Plan 之 SQLMetric

Spark Plan 包含以下基本方法，

2024-11-08 11:56:54 327

原创 Delta Lake

Delta Lake 是经过优化的存储层，为 Databricks 上湖屋中的表提供了基础。Delta Lake 是开源软件，它使用基于文件的事务日志扩展了 Parquet 数据文件，可以处理 ACID 事务和可缩放的元数据。Delta Lake 与 Apache Spark API 完全兼容，并且其设计能够与结构化流式处理紧密集成，让你可以轻松地将单个数据副本用于批处理和流式处理操作，并提供大规模增量处理。Delta Lake 是 Azure Databricks 上所有操作的默认格式。

2024-11-07 14:56:35 566

原创 Spark CBO

参考链接。

2024-11-01 11:20:38 143

原创 Spark DPP

参考链接。

2024-10-29 10:23:18 153

Spring Boot in Action

A developer-focused guide to writing applications using Spring Boot. You'll learn how to bypass the tedious configuration steps so that you can concentrate on your application's behavior., Spring Boot in Action is a developer-focused guide to writing applications using Spring Boot. In it, you?ll learn how to bypass configuration steps so you can focus on your application?s behavior. Spring expert Craig Walls uses interesting and practical examples to teach you both how to use the default settings effectively and how to override and customize Spring Boot for your unique environment. Along the way, you?ll pick up insights from Craig?s years of Spring development experience.

2017-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Spring Boot in Action

深入理解Spark 核心思想与源码分析.pdf

从PAXOS到ZOOKEEPER 国人写的技术实践书 分布式

机器学习实战 英文版 Machine Learning in Action 书中所有代码和数据集

机器学习实战 英文版 Machine Learning in Action

机器学习实战 中文版

数据库实现英文第二版 Database System Implementation

yammer metrics-2.2.0 源码

空空如也

从PAXOS到ZOOKEEPER 国人写的技术实践书分布式

机器学习实战英文版 Machine Learning in Action 书中所有代码和数据集

机器学习实战英文版 Machine Learning in Action

机器学习实战中文版