zhixingheyi_tian
Intel Big Data. Spark
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 之 AQE
AQE 的 循环触发点。原创 2025-06-07 14:55:31 · 293 阅读 · 1 评论 -
Spark 之 DataFrame 开发
【代码】Spark 之 DataFrame 开发。原创 2025-06-06 16:26:03 · 428 阅读 · 0 评论 -
mysql 之 相关
【代码】mysql 之 相关。原创 2025-06-06 12:04:07 · 50 阅读 · 0 评论 -
ICEBerg 之 相关
【代码】ICEBerg 之 相关。原创 2025-06-05 17:33:36 · 102 阅读 · 0 评论 -
Spark 写文件
之所以,最后将一个repartition, 是因为 Spark 最后的shuffle stage , hash key 往往不是 最后 write 的分区key。shuffle partition ,按照新的 写分区列重新 hash ,shuffle, 然后再进行 coalesce。分区组合数:8 个 (from_cluster 和 ds 的组合)总文件数:200 × 8 = 1600 个文件。总文件数 = Task 数量 × 分区组合数。以下是一个单独例子。Task 数量:200。原创 2025-06-05 17:13:11 · 259 阅读 · 0 评论 -
Spark 之 DataSource
HIVE_FILESOURCE_PARTITION_FILE_CACHE_SIZE 设置为 0 可以关闭 partition cache 功能。原创 2025-06-05 11:37:26 · 18 阅读 · 0 评论 -
SparkSQL 之 DataSourceV2 pushdown
【代码】SparkSQL 之。原创 2025-06-03 14:37:58 · 127 阅读 · 0 评论 -
Spark 之 expression
【代码】Spark 之 expression。原创 2023-10-08 10:19:50 · 618 阅读 · 0 评论 -
Spark SQL 之 Analyzer
【代码】Spark SQL 之 Analyzer。原创 2025-05-15 16:47:09 · 203 阅读 · 0 评论 -
Spark SQL 之 Antlr grammar 具体分析
【代码】Spark 之 Antlr。原创 2025-05-15 16:36:56 · 129 阅读 · 0 评论 -
SparkPlan 之 Explain
【代码】SparkPlan 之 Explain。原创 2025-05-08 16:02:56 · 168 阅读 · 0 评论 -
Spark 之 metrics
【代码】Spark 之 metrics。原创 2025-05-08 11:08:29 · 396 阅读 · 0 评论 -
Spark 之 YarnCoarseGrainedExecutorBackend
executor ID , 在日志里也有体现。原创 2025-05-07 21:05:16 · 317 阅读 · 0 评论 -
Spark external shuffle service
对于spark on yarn,shuffle write是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过程;shuffle read是container请求external shuffle服务获取数据过程,external shuffle是NodeManager进程中的一个服务,默认端口是7337,或者通过spark.shuffle.service.port指定。原创 2025-05-07 10:35:28 · 146 阅读 · 0 评论 -
Json 相关
【代码】Json 相关。原创 2025-05-06 16:40:11 · 28 阅读 · 0 评论 -
Spark event 解析
【代码】Spark event 解析。原创 2025-04-30 19:51:11 · 117 阅读 · 0 评论 -
Spark SQL 之 DAG
【代码】Spark SQL 之 DAG。原创 2025-04-30 11:51:30 · 224 阅读 · 0 评论 -
Velox之 Spill
【代码】Velox之 Spill。原创 2025-04-16 16:22:09 · 34 阅读 · 0 评论 -
云计算相关概念
1个计算 CU 的计算能力约等于1核 CPU 与4G 内存的服务计算能力:原创 2025-04-08 16:13:12 · 32 阅读 · 0 评论 -
文献 参考
原创 2025-04-02 11:07:45 · 35 阅读 · 0 评论 -
Spark 之 Jira
https://github.com/apache/spark/pull/29916https://issues.apache.org/jira/browse/SPARK-33037原创 2025-04-01 10:24:58 · 43 阅读 · 0 评论 -
Spark2 之 FQA
检查每个 executor 节点上, 是否都存在 jars。原创 2025-03-31 11:28:49 · 39 阅读 · 0 评论 -
Spark2 之 qualification-tool
spark原创 2025-03-28 10:05:35 · 131 阅读 · 0 评论 -
Spark eventlog 、Event、SparkListener
【代码】Spark eventlog。原创 2025-03-12 15:37:53 · 468 阅读 · 0 评论 -
VCPKG
【代码】VCPKG。原创 2025-03-25 19:49:20 · 125 阅读 · 0 评论 -
Spark2 之 FallBack
【代码】Spark2 之 FallBack。原创 2025-03-24 19:27:49 · 127 阅读 · 0 评论 -
Spark2 之 Expression/Functions
src/main/scala/org/apache/gluten/expression/ExpressionConverter.scalasrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala原创 2025-03-24 16:38:35 · 183 阅读 · 0 评论 -
Hadoop 之 cosn
注意: 以下为新版 region 的配置,如果用了以下配置,会覆盖就配置。原创 2025-03-24 15:18:43 · 52 阅读 · 0 评论 -
Spark 之 HistoryServer 剖析
如果节点 IP 地址过多, 需要bind IP,原创 2025-03-24 14:57:46 · 49 阅读 · 0 评论 -
Spark Plan Optimization (future)
参考链接:原创 2025-03-10 19:27:53 · 46 阅读 · 0 评论 -
Trino 代码剖析
Trino原创 2025-03-10 12:03:23 · 67 阅读 · 0 评论 -
Velox 之 Expression
Velox原创 2025-03-04 17:52:31 · 56 阅读 · 0 评论 -
Spark2 之 Build
这里 可见 ENABLE_BENCHMARK 和 ENABLE_TESTS 不能共同选 ON,选了也没共生的效果。原创 2025-02-19 16:57:47 · 356 阅读 · 0 评论 -
Spark2之Profiling
参考链接:原创 2025-02-18 17:09:42 · 48 阅读 · 0 评论 -
Velox 之 vector
参考链接。原创 2025-02-11 10:53:08 · 79 阅读 · 0 评论 -
Spark Runtime Filter
RuntimeFilter原创 2024-12-30 14:40:03 · 621 阅读 · 0 评论 -
Spark 之 partitons
【代码】Spark 之 partitons。原创 2024-12-09 17:13:04 · 307 阅读 · 0 评论 -
Spark SQL 之 QueryStage
ExchangeQueryStageExec 分为两种。原创 2024-11-22 10:56:09 · 346 阅读 · 0 评论 -
Spark 之 SparkSessionExtensions
【代码】Spark 之 SparkSessionExtensions。原创 2024-11-20 15:38:03 · 462 阅读 · 0 评论 -
Spark SQL corner case
null 既不参与 IN 表达式的计算 ,也不参与 NOT IN 表达式的计算,如果数据中存在 null ,则这两个表达式。得到的结果之和并不等于总的数据结果。原创 2024-11-18 20:00:34 · 154 阅读 · 0 评论