- 博客(489)
- 资源 (11)
- 收藏
- 关注
原创 Spark 之 Jira
https://github.com/apache/spark/pull/29916https://issues.apache.org/jira/browse/SPARK-33037
2025-04-01 10:24:58
10
原创 Spark2 之 Expression/Functions
src/main/scala/org/apache/gluten/expression/ExpressionConverter.scalasrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala
2025-03-24 16:38:35
154
原创 Spark 之 Aggregate
完整的聚合查询的关键字包括groupby、cube、groupingsets和rollup4种。聚合语句针对同一张表进行sum和count(distinct)查询,最终的执行过程包含了4步聚合操作。在SparkSQL中,聚合过程有4种模式,分别是Partial模式、ParitialMerge模式、Final模式和Complete模式。Complete模式和Partial/Final组合方式不一样,不进行局部聚合计算。
2025-01-17 21:17:05
1000
原创 Hadoop 生态之 kerberos
轻型目录访问协议(英文:Lightweight Directory Access Protocol,缩写:LDAP,/ˈɛldæp/)是一个开放的,中立的,工业标准的应用协议,通过IP协议提供访问控制和维护分布式信息的目录信息。
2025-01-07 15:58:29
249
原创 Spark SQL corner case
null 既不参与 IN 表达式的计算 ,也不参与 NOT IN 表达式的计算,如果数据中存在 null ,则这两个表达式。得到的结果之和并不等于总的数据结果。
2024-11-18 20:00:34
141
原创 Spark 之 Cache
这种情况是RDD的数据经过缓存,此时不需要网络传输,是最优locality。数据与Task在同机架的不同节点,此时需要通过网络传输,速度比NODE_LOCAL慢。数据和Task可能在集群的任何地方,性能最差,一般出现这种情况就该排查原因了。数据从哪访问都一样,相当于没有数据本地性,一般值从外部数据源读取数据。(1)数据和Task在同一节点上的不同executor中;即数据和Task在同一个Excutor JVM中。(2)数据HDFS和Task在同一个结点上,要处理的数据在同一个本地进程,
2024-11-13 11:49:08
415
原创 Delta Lake
Delta Lake 是经过优化的存储层,为 Databricks 上湖屋中的表提供了基础。Delta Lake 是开源软件,它使用基于文件的事务日志扩展了 Parquet 数据文件,可以处理 ACID 事务和可缩放的元数据。Delta Lake 与 Apache Spark API 完全兼容,并且其设计能够与结构化流式处理紧密集成,让你可以轻松地将单个数据副本用于批处理和流式处理操作,并提供大规模增量处理。Delta Lake 是 Azure Databricks 上所有操作的默认格式。
2024-11-07 14:56:35
566
Spring Boot in Action
2017-11-23
从PAXOS到ZOOKEEPER 国人写的技术实践书 分布式
2017-09-22
机器学习实战 英文版 Machine Learning in Action 书中所有代码和数据集
2017-09-13
机器学习实战 英文版 Machine Learning in Action
2017-09-13
数据库实现英文第二版 Database System Implementation
2017-09-11
yammer metrics-2.2.0 源码
2017-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人