自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(489)
  • 资源 (11)
  • 收藏
  • 关注

原创 文献 参考

2025-04-02 11:07:45 5

原创 scala 之 序列化

【代码】scala 之 序列化。

2025-04-01 16:50:00 104

原创 Spark 之 Jira

https://github.com/apache/spark/pull/29916https://issues.apache.org/jira/browse/SPARK-33037

2025-04-01 10:24:58 10

原创 Spark2 之 FQA

检查每个 executor 节点上, 是否都存在 jars。

2025-03-31 11:28:49 9

原创 Log4j 相关事项

2025-03-28 14:57:10 81

原创 Scala 示例

【代码】Scala 示例。

2025-03-28 11:16:05 98

原创 Spark2 之 qualification-tool

spark

2025-03-28 10:05:35 95

原创 Scala 之 正则

【代码】Scala 之 正则。

2025-03-26 10:15:24 252

原创 VCPKG

【代码】VCPKG。

2025-03-25 19:49:20 93

原创 Spark2 之 FallBack

【代码】Spark2 之 FallBack。

2025-03-24 19:27:49 108

原创 Spark2 之 Expression/Functions

src/main/scala/org/apache/gluten/expression/ExpressionConverter.scalasrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala

2025-03-24 16:38:35 154

原创 Hadoop 之 cosn

注意: 以下为新版 region 的配置,如果用了以下配置,会覆盖就配置。

2025-03-24 15:18:43 27

原创 Spark 之 HistoryServer 剖析

如果节点 IP 地址过多, 需要bind IP,

2025-03-24 14:57:46 22

原创 Spark eventlog 、Event、SparkListener

【代码】Spark eventlog。

2025-03-12 15:37:53 361

原创 PDF Reader

PDF

2025-03-12 11:20:01 347

原创 Spark Plan Optimization (future)

参考链接:

2025-03-10 19:27:53 31

原创 Trino 代码剖析

Trino

2025-03-10 12:03:23 35

原创 Velox 之单元测试

【代码】Velox 之单元测试。

2025-03-06 11:45:58 105

原创 C++ 测试案例

【代码】C++ 测试案例。

2025-03-05 16:59:52 119

原创 Velox 之 Expression

Velox

2025-03-04 17:52:31 37

原创 Spark2 之 Build

这里 可见 ENABLE_BENCHMARK 和 ENABLE_TESTS 不能共同选 ON,选了也没共生的效果。

2025-02-19 16:57:47 333

原创 Spark2之Profiling

参考链接:

2025-02-18 17:09:42 32

原创 Velox 之 vector

参考链接。

2025-02-11 10:53:08 57

原创 数据结构之排序

参考链接:

2025-02-08 21:05:42 179

原创 Spark 之 Aggregate

完整的聚合查询的关键字包括groupby、cube、groupingsets和rollup4种。聚合语句针对同一张表进行sum和count(distinct)查询,最终的执行过程包含了4步聚合操作。在SparkSQL中,聚合过程有4种模式,分别是Partial模式、ParitialMerge模式、Final模式和Complete模式。Complete模式和Partial/Final组合方式不一样,不进行局部聚合计算。

2025-01-17 21:17:05 1000

原创 Presto 源码分析

Presto 源码分析

2025-01-14 16:57:23 237

原创 Presto 源码分析

Presto

2025-01-08 10:23:45 237

原创 Hadoop 生态之 kerberos

轻型目录访问协议(英文:Lightweight Directory Access Protocol,缩写:LDAP,/ˈɛldæp/)是一个开放的,中立的,工业标准的应用协议,通过IP协议提供访问控制和维护分布式信息的目录信息。

2025-01-07 15:58:29 249

原创 Spark Runtime Filter

RuntimeFilter

2024-12-30 14:40:03 593

原创 Spark 之 partitons

【代码】Spark 之 partitons。

2024-12-09 17:13:04 288

原创 Spark SQL 之 QueryStage

ExchangeQueryStageExec 分为两种。

2024-11-22 10:56:09 336

原创 Spark 之 SparkSessionExtensions

【代码】Spark 之 SparkSessionExtensions。

2024-11-20 15:38:03 439

原创 Spark SQL corner case

null 既不参与 IN 表达式的计算 ,也不参与 NOT IN 表达式的计算,如果数据中存在 null ,则这两个表达式。得到的结果之和并不等于总的数据结果。

2024-11-18 20:00:34 141

原创 Spark 之 EnsureRequirements

【代码】Spark 之 ensureDistributionAndOrdering。

2024-11-18 17:34:13 252

原创 github actions

这是资源找不到,网络原因导致。

2024-11-15 20:56:40 220

原创 Spark 之 Cache

这种情况是RDD的数据经过缓存,此时不需要网络传输,是最优locality。数据与Task在同机架的不同节点,此时需要通过网络传输,速度比NODE_LOCAL慢。数据和Task可能在集群的任何地方,性能最差,一般出现这种情况就该排查原因了。数据从哪访问都一样,相当于没有数据本地性,一般值从外部数据源读取数据。(1)数据和Task在同一节点上的不同executor中;即数据和Task在同一个Excutor JVM中。(2)数据HDFS和Task在同一个结点上,要处理的数据在同一个本地进程,

2024-11-13 11:49:08 415

原创 Spark Plan 之 SQLMetric

Spark Plan 包含以下基本 方法,

2024-11-08 11:56:54 327

原创 Delta Lake

Delta Lake 是经过优化的存储层,为 Databricks 上湖屋中的表提供了基础。Delta Lake 是开源软件,它使用基于文件的事务日志扩展了 Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。Delta Lake 与 Apache Spark API 完全兼容,并且其设计能够与结构化流式处理紧密集成,让你可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。Delta Lake 是 Azure Databricks 上所有操作的默认格式。

2024-11-07 14:56:35 566

原创 Spark CBO

参考链接。

2024-11-01 11:20:38 143

原创 Spark DPP

参考链接。

2024-10-29 10:23:18 153

Spring Boot in Action

A developer-focused guide to writing applications using Spring Boot. You'll learn how to bypass the tedious configuration steps so that you can concentrate on your application's behavior., Spring Boot in Action is a developer-focused guide to writing applications using Spring Boot. In it, you?ll learn how to bypass configuration steps so you can focus on your application?s behavior. Spring expert Craig Walls uses interesting and practical examples to teach you both how to use the default settings effectively and how to override and customize Spring Boot for your unique environment. Along the way, you?ll pick up insights from Craig?s years of Spring development experience.

2017-11-23

深入理解Spark 核心思想与源码分析.pdf

深入理解Spark 核心思想与源码分析 深入理解Spark 核心思想与源码分析 深入理解Spark 核心思想与源码分析

2017-10-18

从PAXOS到ZOOKEEPER 国人写的技术实践书 分布式

从PAXOS到ZOOKEEPER分布一致性原理与实践 上传限60M,所以打成压缩包,内为pdf 从PAXOS到ZOOKEEPER分布一致性原理与实践 上传限60M,所以打成压缩包,内为pdf

2017-09-22

机器学习实战 英文版 Machine Learning in Action 书中所有代码和数据集

完整的源码 数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集 机器学习实战 英文版 Machine Learning in Action 代码和数据集

2017-09-13

机器学习实战 英文版 Machine Learning in Action

高清 带书签 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action 机器学习实战 英文版 Machine Learning in Action

2017-09-13

机器学习实战 中文版

机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版 机器学习实战 中文版

2017-09-13

数据库实现英文第二版 Database System Implementation

数据库实现英文第二版 Database System Implementation 数据库实现英文第二版 Database System Implementation 有书签 高清 机械工业出版社

2017-09-11

yammer metrics-2.2.0 源码

yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码 yammer metrics-2.2.0 源码

2017-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除