
Spark
文章平均质量分 73
麦当当MDD
大数据攻城狮,立志为同志们尽可能多的提供干货!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
湖仓一体化及冷、热、实时三级存储
湖仓一体化(Lakehouse)是大数据架构的演进方向,结合了数据湖的存储优势和数据仓库的查询能力,同时支持冷热分层存储、ACID 事务、实时数据分析。它解决了传统数据湖和数据仓库的缺陷,成为现代数据架构的主流选择原创 2025-03-06 09:29:39 · 968 阅读 · 0 评论 -
Spark on YARN
这是 Spark 的默认配置文件,可以在这里设置 Spark 作业的一些默认参数,比如 master URL(yarn)、deploy mode(client 或 cluster)、executor 内存等。这是 Spark 的环境配置文件。你需要设置一些环境变量,比如 SPARK_HOME, HADOOP_CONF_DIR 等。这是 YARN 的配置文件,通常位于 Hadoop 配置目录中。你需要确保这个文件在 Spark 配置中可以访问。原创 2024-07-15 15:46:09 · 693 阅读 · 0 评论 -
Spark和Hadoop作业之间的区别
Spark和Hadoop是两种广泛使用的大数据处理框架,各自有着不同的设计理念和使用场景。原创 2024-07-15 15:43:36 · 511 阅读 · 0 评论