Hadoop生态系统:工具与架构解析
1. Spark SQL 的统计与数学函数
Spark SQL 支持广泛的统计和数学函数,包括随机数据生成、摘要和描述性统计、样本协方差和相关性、交叉表(也称为列联表)以及数学函数(如 cos、sin、floor、ceil)。以下是 Spark 生态系统的构成:
- Spark 核心引擎
- SPARK Streaming
- MLlib
- GraphX
- Spark R
- Catalyst 优化器
- SPARK SQL
- 数据源 API
- PySpark API
- 数据框
- 数学与统计函数
- 用户界面
下面是 Spark 生态系统的 mermaid 流程图:
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(Spark 核心引擎):::process --> B(SPARK Streaming):::process
A --> C(MLlib):::process
A --> D(GraphX):::process
A --> E(Spark R):::process
A --> F(Catalyst 优化器):::process
A --> G(SPARK SQL):::process
G --> H(数据源 API):::process