大数据领域的框架和软件总结-优快云博客

大数据领域的框架和软件生态系统非常庞大且演进迅速。它们各自解决不同的问题，共同构成了处理海量数据的技术栈。

以下是一个系统的分类梳理，涵盖了主流和新兴的重要框架。

通常，大数据技术栈可以分为以下几层：

层级	功能	代表框架
数据采集层	从各种数据源抽取数据	Flume, Sqoop, Kafka, Logstash, Debezium
数据存储层	海量数据的存储与管理	HDFS, S3, HBase, Cassandra, Kudu
资源管理与调度层	管理集群资源，分配任务	YARN, Kubernetes, Mesos
数据处理与计算层	（核心层）对数据进行计算分析	MapReduce, Spark, Flink, Tez, Hive, Presto
数据查询与分析层	即席查询、交互式分析	Hive, Impala, Presto, Druid, ClickHouse, Kylin
数据管理与治理层	元数据、数据质量、安全	Atlas, Ranger, Griffin, DataHub, Amundsen
数据可视化与应用层	将数据结果呈现给用户	Superset, Tableau, Grafana, Zeppelin, Jupyter

负责从各种源头（数据库、日志、传感器等）抽取数据并送入大数据平台。

分布式文件系统：
- HDFS: Hadoop分布式文件系统，大数据存储的基石，适合存储超大文件，提供高吞吐量的数据访问。
- Amazon S3 / Azure Blob Storage / Google Cloud Storage: 云对象存储，已成为云上大数据生态的事实标准存储。
NoSQL 数据库：
- Apache HBase: 构建在HDFS之上的分布式、面向列的NoSQL数据库，适合随机读写和海量数据存储。
- Apache Cassandra: 分布式、宽列存储，无单点故障，提供高可用性和线性扩展。
- MongoDB: 面向文档的数据库，适合存储非结构化或半结构化数据。
数据湖格式 (Data Lake Formats):
- Apache Parquet: 列式存储格式，极大优化了查询性能，被Spark、Presto等广泛支持。
- Apache ORC: 另一种高效的列式存储格式，常用于Hive生态。
- Apache Iceberg / Delta Lake / Hudi: **表格式，构建在Parquet/ORC之上，为数据湖提供了ACID事务、元数据管理、数据版本控制等能力，是新一代数据架构的核心。

Apache YARN: Hadoop 2.0的核心组件，负责集群资源管理和作业调度（“数据中心的操作系统”）。
Kubernetes: 容器编排领域的王者，现在也正在成为大数据和AI工作负载的统一调度平台（如Spark on K8s, Flink on K8s）。
Apache Airflow / DolphinScheduler: 工作流调度工具，用于以代码方式编排、调度和监控复杂的数据处理管道。

这是最核心、最丰富的一层，可分为批处理、流处理和混合处理。

批处理：
- Apache MapReduce: 第一代大数据计算引擎，模型简单但较慢，现多被更高级的框架替代。
- Apache Spark: 第二代引擎的霸主。基于内存计算，提供远超MapReduce的性能。支持批处理、流处理、机器学习和图计算。
流处理：
- Apache Flink: 真正的流处理引擎（认为批是流的特例）。提供高吞吐、低延迟、Exactly-Once语义，是实时处理领域的领头羊。
- Apache Spark Streaming: 基于Spark核心，将流数据切分成小批量（微批）进行处理。
- Apache Storm: 较早的流处理框架，延迟极低，但吞吐量和语义保障不如Flink。
查询引擎：
- Apache Hive: 基于MapReduce/Tez/Spark，通过SQL（HQL）处理存储在HDFS上的大数据，降低了使用门槛。
- Presto / Trino: MPP架构的分布式SQL查询引擎，支持跨多种数据源（HDFS, S3, MySQL, Kafka等）进行交互式快速查询。
- Apache Impala: 类似Presto，为HDFS/HBase提供高性能的SQL查询。
- ClickHouse: 开源的列式OLAP数据库，以单表查询性能极致而闻名。
- Druid: 实时分析型数据库，为事件数据的OLAP查询而优化，支持高并发低延迟查询。

云原生：大数据技术全面向云上迁移，S3等对象存储成为标准，计算与存储分离成为主流架构。
流批一体： Flink等框架统一了批处理和流处理，一套代码处理所有数据。
Data Lakehouse：结合数据湖的灵活性和数据仓库的管理性能，Iceberg, Hudi, Delta Lake 等表格式是构建Lakehouse的关键。
Kubernetes化：大数据框架正全面支持在K8s上运行，实现资源的统一调度和弹性伸缩。

选择哪种框架取决于你的具体需求：数据规模、处理延迟要求（实时/离线）、业务场景（查询分析/机器学习）和技术团队背景。现代大数据架构通常是这些框架的混合体。