1. 大数据分析流程
- 在互联网产业中大数据生态体系的主要作用就是存储、处理海量数据为企业创造价值、推动社会进步,数据分析流程存在三个主要流程:
- 计算系统可以加载外部数据源
- 资源系统可以为计算系统分配运行资源
- 计算系统数据分析最终结果可以持久化到外部系统
- 通过图片可以得知存储系统才是大数据计算体系中的基石,学习一个计算框架应该先从如何使用当前计算框架加载外部数据源开始。
2. Spark SQL数据源
- Spark SQL 是 Apache Spark 的模块之一,提供对结构化数据的查询能力。它支持多种数据源,包括 HDFS、S3、Hive、Parquet、JSON 等,允许用户通过 SQL 语句或 DataFrame API 访问和处理数据。Spark SQL 的优化器可以自动优化查询计划,提高执行效率。此外,它还支持外部数据源的集成,使得在不同存储系统间进行数据交换和分析变得简单快捷。
2.1 SparkSQL常见数据源
- Hive 数据仓库
- MySQL 关系型数据库
- F