- 博客(60)
- 收藏
- 关注
原创 如何在idea中写spark程序
Spark 是基于 Java 和 Scala 开发的,所以需要安装 Java 和 Scala。通过以上步骤,你就可以在 IntelliJ IDEA 中编写和运行 Spark 程序了。如果你还没有安装 IntelliJ IDEA,可以从。文件中添加 Spark 依赖。目录下创建一个新的 Scala 文件,例如。注意:你可以根据需要调整 Spark 版本。下载并安装适合你操作系统的版本。
2025-04-28 20:01:05
472
原创 如何搭建spark yarn模式的集群
Spark 作为计算框架,直接运行在 YARN 中,并接受 YARN 的资源调度。Spark 的 Driver 可以运行在 YARN 容器内或提交任务的客户端进程中,而实际执行任务的 Executor 运行在 YARN 提供的容器内。: 在这种模式下,Driver 运行在 YARN 集群中的一个容器内,通常用于生产环境。在 client 模式下,日志会随客户端的标准输出流输出,而在 cluster 模式下,客户端不会有日志信息和结果输出。是一个强大的分布式数据处理框架,它可以在各种集群管理器上运行,其中。
2025-04-28 19:56:16
968
原创 如何安装Spark
在安装Spark时,它就提供了一些示例程序,我们可以直接来调用。进入到spark-local,运行命令spark-submit命令。这里的 \ 是换行输入的意思,整体的代码就只有一句,只不过太长了,我们把它拆开成几个部分来输入,其中\ 的意思就是这里写不下,写在下一行。接下来的操作,我们把它上传到集群中的节点,并解压运行。1.打开etc/profile.d/my_env.sh文件中,补充设置spark的环境变量。的值,具体运行效果如下。请注意,它并不会产生新的文件,而是直接在控制台输出结果。
2025-04-22 11:24:23
406
原创 spark和hadoop之间的对比和联系
◦ Hadoop:主要基于 MapReduce 计算模型,将任务分为 Map 和 Reduce 两个阶段,适用于大规模数据的批处理,但对于复杂的多阶段计算,会有较多中间结果写入磁盘,导致性能开销。◦ Spark:基于内存的分布式计算框架,采用弹性分布式数据集(RDD),能在内存中缓存数据,对于迭代计算、交互式查询和流计算等场景,性能比 Hadoop 更优。◦ Hadoop:编程相对复杂,通常需要开发人员编写 Map 和 Reduce 函数,处理数据的输入、输出和中间过程,对开发人员要求较高。
2025-04-22 08:31:12
516
原创 1分钟教你数据清洗
它是指对采集到的原始数据进行预处理,以去除错误、重复、不完整或不一致的数据,使数据符合分析要求的过程。它在整个数据分析和数据处理流程中处于非常重要的位置,因为数据质量的好坏直接影响到后续分析结果的准确性和可靠性。对于reduce函数来说,它的输入参数是:<刷选后的每一行的内容,[null,null,...]>,对于我们的需求来说,并不需要这个阶段。<偏移量,每一行的内容> → <刷选后的没一行的内容,null>对于map函数来说,它的输入参数是:<偏移量,第一行的内容>
2025-04-02 15:48:24
186
原创 Mapreduce的工作原理
它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任务,在集群节点上自动分配和执行任务以及收集计算结果,将数据分布存储、数据通信、容错处理等并行计算涉及到的很多系统底层的复杂细节交由系统负责处理,大大减少了软件开发人员的负担。简单说来,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,它可以定义一个“减一”的映射函数,用来修正这个错误。
2025-03-31 20:03:10
207
原创 Hadoop集群的常用命令
这里使用 hadoop jar 命令提交名为 wordcount.jar 的 MapReduce 作业,作业的类名为 WordCount,输入目录为 /user/hadoop/input,输出目录为 /user/hadoop/output。此命令将 /user/hadoop/sourcefile.txt 文件复制到 /user/hadoop/destinationfile.txt。该命令执行后,将展示 /user/hadoop 目录下的所有文件和子目录的详细信息,包括文件权限、所有者、大小以及修改时间等。
2025-03-31 19:57:52
351
原创 学生党跟我一起配置hosts吧
yum中的源是指它下载软件的地址。把虚拟机上的软件yum想象成你自己开的一家商场,那么yum的源就是你的供货商。hosts文件是一个没有后缀名的文本文件,它记录了本机在访问域名时的映射表。需要管理员权限才能去修改它。网络上的免费而稳定的源有很多,这里我们选择阿里云的源。现在我们可以通过finalshell这个工具来连接我们的远程服务器,不过我们连接主机的时候,需要。使用vi修改之后,:wq保存退出,我这里改成了hadoop100,大家可以自行修改。打开/etc/hostname这个文件,并修改其中的内容。
2025-03-04 11:11:14
545
原创 40秒教你学会虚拟机配置IP
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!如果不进行设置,每次启动机器时都可能是随机的IP,不方便我们后续操作。注意:这里的第三个部分的10并不是固定的,我们自己可以约定,但是约定之后就要固定下来。让所有的vm配置的虚拟机使用NAT时,它们的网段都是一致的。配置Windows本地虚拟网卡,让本机也可以访问虚拟机。具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。
2025-03-03 19:32:56
396
原创 号外,号外,VI编译器精华,快来看一看
(一)VI基本介绍示意图:具体操作如下:从命令模式切换到底线命令模式:1,shift +zz 快速保存退出2,:w 保存3,:wq 保存退出4,:wq!强制保存退出光标操作:复制和粘贴:删除和撤销:
2025-02-25 11:21:25
153
原创 教你快速安装VMWare
安装完成VMware后,可以开始配置Linux虚拟机。打开VMware Workstation Pro,选择“创建新的虚拟机”。选择网络类型为“使用网络地址转换 (NAT)”,点击“下一步”。选择创建新虚拟磁盘,设置磁盘容量为20GB或以上。按照提示完成安装配置,包括设置时区、创建用户等。设置虚拟机名称和存储位置,点击“下一步”。选择安装语言为中文(简体),点击“继续”。选择“自定义(高级)”,点击“下一步”。完成虚拟机创建,开始安装操作系统。安装完成后,重启虚拟机,进入系统。
2025-02-19 15:50:47
157
原创 大数据的特点
数据保存方面,Hadoop时代,HDFS去统一管理100台机器上的存储空间,并提供一个统一的接口,用户在使用的过程中,就好像是一个无限大的硬盘空间。spark是基于内存的计算,mapReduce是基于磁盘的计算。在数据计算方面,基本的思路是使用MapReduce来处理计算。特点:1.大量 2.高速 3.多样 4.低价值密度。阶段2:大数据时代---分布式处理。4.大数据部门内部组织结构。阶段3:实时大数据时代。5.Hadoop的优势。大数据的技术发展脉络。
2025-02-18 11:37:25
345
原创 Scala身份证上的秘密以及Map的遍历
/\\W+:大学字符串表示:非字(不是一个的字符。例如:空格 逗号 句号 换行...)//把字符串中的每个单词,拆出来。//+:一个或者多个。
2024-11-25 17:13:42
673
原创 Scala作业1
val books2 = mutable.Set("朝花夕拾", "红楼梦", "长歌行")books ++= mutable.Set("朝花夕拾","活着","西游记")val rs =books.contains("Python从入门到实践")val books =mutable.Set("朝花夕拾","活着")println(s"Python从入门到实践是否存在:${rs}")println(s"哪些书是他们都有的?books += "西游记"books += "三体"books -= "三体"
2024-11-11 15:32:46
181
原创 快跟我一起学习Scala的访问权限
4private【this】访问权限。2protected访问权限。3private访问权限。成员属性:1默认访问权限。
2024-11-04 16:25:21
208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅