大数据
文章平均质量分 85
大数据中台相关
ThisIsClark
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
什么是Spark
Apache Spark是一个开源的分布式计算系统,专为大规模数据处理而设计。它最初由加州大学伯克利分校的AMPLab开发,并于2010年开源,现已成为大数据领域最受欢迎的处理框架之一。Spark以其卓越的内存计算能力和易用性著称,能够比传统的大数据处理技术(如Hadoop MapReduce)快100倍以上。原创 2025-06-19 21:37:38 · 686 阅读 · 0 评论 -
什么是MapReduce
MapReduce是一种和,用于大规模数据集(通常大于1TB)的并行处理。它由Google在2004年提出,后来成为Apache Hadoop项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map(映射)和Reduce(归约)——来实现分布式计算。原创 2025-06-18 13:23:35 · 546 阅读 · 0 评论 -
什么是Flink
Apache Flink是一个开源的,最初由柏林工业大学开发,后成为Apache软件基金会的顶级项目。它能够以的方式处理,实现了真正的流批一体处理范式。原创 2025-06-18 13:21:03 · 560 阅读 · 0 评论 -
什么是数据仓库的ETL
清洗转换(Transform)**后,**加载(Load)**到目标数据库或数据仓库的过程。它是企业数据治理、商业智能(BI)和大数据分析的基础。掌握SQL和Python(Pandas)是ETL开发的基础,同时需要理解数据建模(如星型模型)和分布式计算原理(Spark)。数据仓库(Snowflake、Redshift)、数据湖(HDFS)、分析数据库(ClickHouse)。将分散的"2023-01-01"、"01/01/2023"统一转换为标准日期格式。,指从不同数据源**抽取(Extract)原创 2025-06-17 13:21:51 · 1218 阅读 · 0 评论 -
什么是Hadoop Yarn
尽管后续出现更轻量的资源管理工具(如 Kubernetes),YARN 仍是企业级 Hadoop 生态的基石。:掌握 YARN 的架构和调度原理,是深入理解 Hadoop、Spark 等大数据技术的关键一步!(如 MapReduce、Spark、Flink 等)在同一个集群上运行。(Yet Another Resource Negotiator)是。,使 Hadoop 从单一的 MapReduce 计算框架演变为。YARN 是 Hadoop 2.0+ 的。原创 2025-06-17 13:18:16 · 1271 阅读 · 0 评论 -
什么是Hive
Apache Hive通过将SQL-like查询转换为Hadoop作业,大大降低了大数据分析的门槛。虽然它不适合实时分析场景,但在批处理和数据仓库应用中表现出色。随着Hive的不断发展,它在大数据生态系统中的地位依然稳固,特别是在与Spark、Tez等新执行引擎结合后,性能得到了显著提升。对于需要进行大规模数据分析的组织,Hive仍然是一个不可或缺的工具。原创 2025-06-16 13:58:47 · 1147 阅读 · 0 评论 -
什么是SeaTunnel
专为大规模数据同步、ETL(Extract, Transform, Load)和实时数据处理而设计。它支持从多种数据源(如关系型数据库、NoSQL、消息队列、文件系统等)读取数据,并进行高效的数据转换和写入目标存储系统。,SeaTunnel已成为大数据生态中不可或缺的数据集成解决方案。无论是批处理还是流式计算,SeaTunnel都能提供高效、稳定的数据管道管理能力。SeaTunnel(原名Waterdrop)是一个。,现已成为大数据生态系统中重要的数据集成工具之一。SeaTunnel支持。原创 2025-06-16 14:08:02 · 1199 阅读 · 0 评论
分享