- 博客(6)
- 收藏
- 关注
原创 实战Spark从入门到精通(六):手把手教你搭建Hadoop集群,认准版本号!
通过前面的文章,我们已经准备好了服务器操作系统环境,今天我们来选择一个Spark版本,以及与之兼容的Hadoop版本,然后搭建一个Hadoop环境,作为我们的底层运行环境。记住一句话:大数据就是两件事:1、计算2、存储搭建Hadoop集群确实不是一件容易的事,但只要按照步骤来,基本不会有大问题。版本兼容性:JDK、Hadoop、Spark版本要匹配路径配置:所有配置文件中的路径要保持一致权限问题:学习阶段用root用户最省事网络配置:确保各节点能正常通信。
2025-05-31 19:27:37
913
原创 实战Spark从入门到精通(五):Spark开发实操,先搞定Spark集群规划!
从这篇文章开始,我们要进入Spark的开发实操了。包括Spark的任务提交、各类算子的实操、RDD的创建、以及各类开发调优的工作等等,有点儿摩拳擦掌的劲儿了吧。但在此之前,我们要先搭建一个集群环境,方便我们后面开发的Spark代码进行测试,以及实时看到效果。好了,基础环境就搞定了!是不是比想象中简单?其实技术这东西,看起来复杂,但只要有人带着你一步步来,也就那么回事儿。下一篇文章,我们就要开始安装Hadoop和Spark了,到时候你就能看到自己的集群跑起来的爽感了!
2025-05-25 21:15:11
1177
原创 实战Spark从入门到精通(四):揭秘Spark架构,这才是Spark速度快的真正秘密!
在前面几篇文章中,我们已经了解了Spark的基础知识、快速上手以及RDD的核心概念。今天,我们来深入Spark的架构,看看它到底是怎么组织的,为什么能那么快。如果你想真正用好Spark,了解它的架构绝对是必不可少的一步。就像开车,不需要你会造发动机,但至少得知道油门和刹车在哪吧?通过今天的学习,我们已经知道了Spark架构的五大组件和工作流程。理解Spark的架构,不仅能帮助我们写出更高效的Spark代码,还能在出现问题时更快地定位和解决。现在,你是不是对Spark的速度为什么那么快,有了更深入的理解。
2025-05-19 10:38:04
1021
原创 实战Spark从入门到精通(三):深入理解Spark RDD,大数据处理的核心引擎
上次我们一起体验了Spark的简单上手操作,相信你也感觉到了,Spark开发的代码还是挺简单的,使用Scala开发同样的功能,比java代码还会少很多行。当然,如果你就是java技术栈的忠实拥趸,完全可以用java开发,Spark两者都支持。这个系列第一篇的时候,我们就说了Spark无论是内存计算还是磁盘计算,都比Hadoop的MapReduce那一套要快10倍百倍,其中一个重要原因,同时也是spark的核心原理之一,就是它的RDD。
2025-05-16 18:51:17
1002
原创 实战Spark从入门到精通(二):Spark急速上手,给小白的3分钟入门指南
本文介绍了如何快速上手Spark开发,重点讲解了Scala语言的基础语法和Spark的核心组件SparkContext。通过一个简单的文本处理示例,展示了如何使用Spark读取HDFS文件、进行数据操作和缓存优化。文章还详细演示了经典的WordCount案例,展示了Spark在处理大数据时的简洁性和高效性。
2025-05-15 11:17:53
1021
原创 实战Spark从入门到精通(一):一文带你全面了解Spark大数据处理框架
大数据改变了世界,Spark改变了大数据!这是Spark专栏的第一篇,这个专栏我打算用尽量通俗的语言来写,希望可以帮助想要入门大数据的同学们更加轻松的掌握Spark这个利器。Spark已经成为大数据处理的标准工具,掌握Spark几乎是所有数据工程师的必备技能。不过,虽然Spark很强大,但它并没有完全取代Hadoop生态系统。在大多数应用场景中,Spark处理的数据还是来自HDFS,所以Spark和Hadoop还是分不开的"一家人"。
2025-05-14 12:30:56
989
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅