- 博客(94)
- 收藏
- 关注
原创 如何在 untitled 软件中安装 Scala插件
4.打开全局库,新建全局库。,最后点击确定,则Scala 插件安装成功。2.点击插件,搜索 Scala 进行安装,安装完成后重启软件。3.打开软件点击左上角“文件”,接着点击“项目结构”1.打开软件,点击左上角"文件",接着点击"设置"
2024-11-11 15:33:33
1192
原创 为什么hadoop不用Java的序列化?
Java的序列化框架(Serializable)在对象序列化时会附带大量额外信息,导致效率低下,不适用于网络传输。为此,Hadoop开发了自有的序列化机制(Writable),具有紧凑、快速和互操作的特点。Hadoop序列化机制高效利用存储空间,减少读写数据的额外开销,并支持多语言交互。与Java的序列化相比,Hadoop的序列化机制更适合大数据处理环境,提供了更高效的序列化解决方案。
2025-05-13 10:30:01
427
原创 spark-local模式
通过mv spark-3.3.1-bin-hadoop3 spark-local这个命令将解压后的文件夹改成spark-local(重命名是为了后续我们还会使用其他的配置方式,所以这里先重命名一次。三、通过tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/这个命令将spark安装文件到/opt/module下。二、通过finalshell连接虚拟机,连接成功后打开/opt/software,将我们的压缩文件拉到这个目录下。一、首先打开我们的虚拟机。
2025-05-13 10:27:55
258
原创 通过jps命令,可以看到什么
来源: NameNode 运行在主节点 (Master) 上,通常通过 start-dfs.sh 或者 start-all.sh 启动脚本启动。功能: DataNode 是实际存储数据块的工作节点,分布在集群的多个 Slave 节点上。功能: NodeManager 是 YARN 下属的一个子模块,专注于单个节点上的容器生命周期管理和服务监控。来源:History Server 则是用来存储已完成应用程序的日志文件,并提供一种机制让用户能够回顾过去作业的表现情况。维护可用资源池的信息。
2025-05-13 10:25:40
298
原创 Linux中的tar命令(tape archive)
1.压缩文件:把多个文件压缩成一个压缩包文件。例如:把1.txt 2.txt 3.txt压缩到test.tar文件中 命令是 tar -cvf test.tar 1.txt 2.txt 3.txt。参数:-c 建立一个压缩文件,把多个文件夹压缩到一个新文件中。tar -xvf test.tar -C./temp显示过程。
2025-05-13 10:23:18
301
原创 Hadoop和Spark生态系统
1.来源:Hadoop MapReduce 的 历史任务服务器,由 mr-jobhistory-daemon.sh start historyserver 启动。1.来源:Spark 集群的 工作节点(Worker Node),由 start-worker.sh 启动。1.来源:Spark 的 历史任务服务器,由 start-history-server.sh 启动。1.来源:Hadoop HDFS 的 数据节点,由 start-dfs.sh 启动。②接收客户端提交的任务,分配给 Worker 执行。
2025-05-13 10:22:41
234
原创 Spark处理过程-转换算子
行动算子是触发 Spark 计算的“触发点”,因为 Spark 的 RDD 是懒惰计算的,只有在执行行动算子时,才会真正开始计算。它会触发 Spark 作业的实际执行,对 RDD 中的所有元素进行计数,并将最终的计数结果返回给驱动程序。f: T => Unit:这是一个函数,它接收一个类型为 T 的元素(T 为 RDD 中元素的类型),并对该元素执行相应的操作,但不返回任何值(返回类型为 Unit)。返回值:返回一个包含 RDD 中所有元素的数组,数组元素的类型与 RDD 中元素的类型一致。
2025-05-13 10:18:03
709
原创 【无标题】
以下是 10 条符合上述示例中数据格式(姓名,年龄,性别)的测试数据,包含了一些可能需要清洗掉的无效数据,你可以将其保存为一个文本文件,用于测试上面的数据清洗程序。假设你有一个包含用户信息的文本文件,每行格式为 姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。这里面:“赵六”的年龄不是有效的数字,在执行数据清洗程序时,这些行应该会被过滤掉。过滤算子中,函数返回为false,就会被过滤掉,函数返回为true,就会被保留下来。// (1)字段拆分,拆分出年龄这个字段。// 3.保存过滤之后的文件。
2025-05-13 10:12:38
292
原创 如何创建maven项目
步骤一:打开 IDEA,点击 File -> Settings(Windows/Linux)或者 IntelliJ IDEA -> Preferences(Mac),进入设置界面,然后找到 Build, Execution, Deployment -> Build Tools -> Maven。步骤三:可以在 User settings file 中指定 settings.xml 文件的路径(一般使用默认路径即可),Local repository 中指定本地仓库的路径,配置完成后点击 OK 保存设置。
2025-05-13 10:03:51
718
原创 如何安装并使用maven
默认情况下,settings.xml文件位于 Maven 安装目录的 conf文件夹中(例如 D:\Apache\maven\conf\settings.xml)。- 下载最新版本的 Maven 压缩包(`apache-maven-<version>-bin.zip`)。- 在“变量值”中输入 Maven 的安装路径,例如 `D:\Apache\maven`。- 在“环境变量”窗口中,找到并选择 `Path` 环境变量,然后点击“编辑”按钮。- 右键点击“此电脑”或“我的电脑”,选择“属性”。
2025-05-13 09:40:13
453
原创 Spark 和 Hadoop 都是大数据处理领域的重要框架,它们之间既有联系又有区别,以下是详细的对比和联系分析
Spark:基于内存计算,采用弹性分布式数据集(RDD)作为核心数据结构,能够在内存中高效地进行数据处理和迭代计算,大大提高了计算速度,尤其适用于实时计算、交互式查询和机器学习等场景。综上所述,Spark 和 Hadoop 在大数据处理领域各有其独特的优势和适用场景,在实际应用中,通常会根据具体的业务需求和数据特点来选择合适的框架或两者结合使用。Hadoop:由于 MapReduce 模型的限制,数据在磁盘上频繁读写,导致处理速度相对较慢,特别是对于复杂的、需要多次迭代的计算任务。
2025-05-13 09:34:24
381
原创 Scala高阶函数中的reduce函数
在Scala中,reduce方法用于对不可变序列的元素执行二元规约操作。以下代码展示了如何使用reduce计算数组Array(1,2,3,4,5)中所有元素的和:var res = Array(1,2,3,4,5).reduce((x, y) => x + y)。执行后,res的值为15,即1+2+3+4+5的结果。reduce通过将二元操作(如加法)应用于序列的连续元素,最终返回一个单一的结果。
2025-05-13 08:31:24
270
原创 如何在idea中写spark程序
下载并安装Scala 2.12.15,并配置环境变量。:下载并安装Maven 3.5.4,并配置环境变量。:下载并安装IntelliJ IDEA。:在IDEA中安装Scala插件。:下载并安装JDK 1.8。
2025-05-13 08:28:51
520
原创 转换算子和行动算子的区别
转换算子会从一个已经存在的数据集 (RDD)中生成一个新的数据集 (RDD),比如map就是一个转换算子,它通过映射关系从一个RDD生成了一个新的RDD。行动算子 (actions): 行动算子在进行数据集计算后会给driver程序返回一个值。转换算子和行动算子最大的。
2025-05-07 15:38:36
193
原创 如何搭建spark yarn模式的集群
Spark 作为计算框架,直接运行在 YARN 中,并接受 YARN 的资源调度。Spark 的 Driver 可以运行在 YARN 容器内或提交任务的客户端进程中,而实际执行任务的 Executor 运行在 YARN 提供的容器内。: 在这种模式下,Driver 运行在 YARN 集群中的一个容器内,通常用于生产环境。: 在这种模式下,Driver 运行在客户端机器上,这通常用于学习和测试环境。这样,Spark 就能够读取 HDFS 上的文件并在 YARN 集群中运行。
2025-04-28 20:01:37
224
原创 MapReduce 的工作原理
输入:Map 阶段接收输入数据,通常是键值对(key-value pairs)。输出:Map 函数的输出是新的键值对,这些中间结果将传递给 Reduce 阶段。: 输入:Reduce 阶段接收 Shuffle 阶段处理后的数据。处理:Reduce 函数对相同键的值进行合并计算,生成最终结果。输出:Reduce 函数的输出是最终结果,通常存储在 HDFS 中。: 分区:将 Map 阶段的输出数据进行分区,每个分区对应一个 Reduce 任务。合并:将相同键的值合并在一起,准备传递给 Reduce 阶段。
2025-03-31 19:43:49
495
原创 大学生实现自律之不在电脑上刷抖音,强制接触美好生活
注意:douyin.com 的前面有个空格。修改保存之后,请再次去浏览器中访问抖音.com 看看是不是抖音已经打不开啦。C/Windows/System32/drivers/etc/hosts,并在这个文件的最后补充一句。
2025-03-10 16:13:59
312
原创 如何配置本机host文件
3.用finalshell新建一个连接,并使用hadoop100这个主机名来连接。(1)打开、etc/hostname 这个文件,并修改其中的内容。2.修改本地的hosts文件。1.修改虚拟机主机名。
2025-03-10 15:32:22
631
原创 如何用vi编辑器的打开,创建和保存文件的基本操作
3.home键可以快速定位到首行,end键可以快速定位到行尾。5.在命令模式下,按下gg键(两个小写g)跳到文件的第一行。(1) :p退出 (2):w 保存 (3):wq 保存退出 (4):wq!4.按下G键(大写G)可以跳到文件的最后一行。第二步 进入编辑模式 按一下i a o 三者任意一个 (此时,键盘可以正常打字)第四步 退出编辑模式 按一下esc键 (回到了命令模式)第一步 创建/打开:vi a.txt (进入命令模式)输入 :wq 敲回车。
2025-03-03 19:32:27
411
原创 如何让虚拟机联网,(让虚拟机具备联网功能)
linux中,ip地址是写在配置文件(/etc/sysconfig/network-scripts/ifcfg-ens33)中,这里使用 vi 编辑器去修改即可!(1)配置vm虚拟机网段 具体操作是:点击虚拟机左上角编辑——>虚拟网络编辑。让所有的VM配置的虚拟机使用ANT时,他们的网站都是一致的。(一)如何操作(虚拟机IP一共有三个地方需要配置)判断一台虚拟机是否能联网(ping+一个网站)具体设置为:进入虚拟机,修改对应的IP。(3)设置虚拟机的IP。检查是否能Ping通外网。
2025-03-01 15:30:00
891
原创 vi编辑器
三种模式:(1)命令模式:在这个模式下,所敲的案件编辑器都理解为命令,以命令来驱动执行不同的功能。请注意在这个模型下不能进行文件编辑,当我们通过vi命令第一次打开文件的时候,进入的就是命令模式。(3)底线命令模式:以:开始通常用于文件的保存或推出。(2)编辑模式:此时我们可以修改文件。三种模式是可以相互切换的。
2025-02-27 14:45:00
158
原创 输出重定向
会把当前日期覆盖到啊。txt这个文件中,多次运行也只有这一条数据。方法(1):覆盖掉原来文件中的内容:> (2):添加到文件的末尾:>>.如果我们希望在创建文件的同时就添加一些内容到文件中,就可以用到输出重定向。echo111>a.txt 就会把111。,如果这个文件不存在,就会顺手创建这个文件。如果这个文件不存在,就会顺手创建这个文件。到a.txt这个文件中。a.txt这个文件中,
2025-02-26 17:30:00
112
原创 利用vi编辑器进行复制 粘贴 删除 撤销 反撤销等高级操作
(1)dd(两个小写d)用来删除光标所在当前行的内容。(2)ndd(n+两个小d)用来删除当前行往下的n行。(2)nyy(n+两个小写y)复制当前行往下n行内容。(2)ctrl+r 反撤销(重做上一步的操作)(1)yy(两个小写y)复制光标所在行的内容。3.删除 删除10行就是 10dd。(1)p(小写p)在当前行的下一行粘贴。(2)P(大写p)在当前行的上一行粘贴。(1)u撤销上一步的操作。
2025-02-25 11:09:13
620
原创 Linux基本命令(2)
more:他的功能似如cat,不过不会翻页形式显示,适合大文件查看。:移动或重命名文件或目录。管道运算符: | 把上一个命令的结果作为下一个命令的参数 具备分页的功能 ( ll | more |(竖线):管道运算符 上一个输出结果作为下一个输入)
2025-02-25 10:09:40
189
原创 用Python编程语言解答
从键盘读取一个数字a,求s=a+aa+aaa+aaaa+aa...a的值。例如a为4,s=4+44+444+4444(此时共有4个数相加)。
2024-12-13 17:30:00
125
原创 用Python编程语言输入一个六位数,求各位数之和,如果各位数在36,45之间则为幸运数字。
【代码】用Python编程语言输入一个六位数,求各位数之和,如果各位数在36,45之间则为幸运数字。
2024-12-13 17:00:00
180
原创 用Python编程语言解答
从键盘读取三角形的三条边(即三条边对应三个变量),判断是否能构成三角形,如果能,求出周长。如果不能,输出“不能构成三角形”
2024-12-12 08:39:21
242
原创 用Python编程语言解答
玩家:从键盘输入一个正整数(范围1~3),其中1表示石头,2表示剪刀,3表示布。电脑:随机出拳(调用随机函数random())电脑随机出拳的代码为。自己(也就是玩家)和电脑比赛出拳。
2024-12-12 08:28:31
181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅