Amu_Yalo-优快云博客

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-03-31 19:23:07 430

原创 Spark；修改配置文件，启动集群，查看运行结果，纠错

解决办法：可以尝试使用 IP 地址（如 http://192.168.56.100:9870 和 http://192.168.56.100:50070）来访问，看是否能正常访问，以判断是否是域名解析的问题。你还可以通过访问 NameNode 的 Web 界面（即 http://hadoop100:8970）来查看 HDFS 的状态信息。若集群是第一次启动，需要在hadoop100节点（指定为namenode的节点）格式化NameNode（注意：格式化NameNode，会产生新的集群id）

2025-03-20 21:31:00 597

原创 Spark，hadoop的组成

（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间，副本数，文件权限），以及每个文件的块列表和块所在的DataNode等。每个框都是一个进程，可能都运行在一台主机上，但是，属于不同的集群。对普通用户来说， Hadoop就是一个东西，一个整体，它能给我们提供无限的磁盘用来保存文件，可以使用提供强大的计算能力。在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。Yarn和HDFS的关系说明：逻辑上分离，物理上在一起。

2025-03-20 10:58:46 537

原创 Spark；scp命令，rsync命令，ssh命令

伪分布式：也是在一台单机上运行，但用不同的 Java 进程模仿分布式运行中的各类节点，特点：Hadoop 启动的这些守护进程都在同一台机器上运行，是相互独立的 Java 进程。eg命令：scp -r /opt/module/jdk1.8.0_212/ root@hadoop102:/opt/module/jdk1.8.0_212/命令：rsync -av /opt/conf/1.txt root@roothadoop102:/opt/conf/$pdir/$fname ：要拷贝的文件路径 / 名称。

2025-03-10 19:21:47 412

原创 spark，linux克隆

要注意，这里是虚拟机的名称，而不是它的hostname。（2）要将这两台克隆出来的虚拟机和hadoop100保存在同一个磁盘目录下，方便我们统一管理。克隆之后，我们得到了hadoop002,hadoop003，由于它们是从hadoop001直接扣克隆过来的，所以目前他们的ip和hostname都是很hadoop100是一样的，这里就需要修改下。linux中，ip地址是写在配置文件（/etc/sysconfig/network-scripts/ifcfg-ens33）中，这里使用 vi 编辑器去修改即可！

2025-03-08 14:32:47 304

原创 spark yum配置

把yum想象成你自己开的一家商场，那么yum的源就是你的供货商。这个源已经失效了，就是你的默认供货商跑路了！如果是win11，它在Windows/system32/hosts 文件，如果是win10，它在C:\Windows\System32\drivers\etc\hosts。我们打开这个文件，并在最后一行的后边，添加三个新行，内容是：IP地址主机名 eg：192.168.56.101 hadoop100（注：IP地址和主机名之间有一个空格）网络上的免费而稳定的源有很多，这里我们选择阿里云的源。

2025-03-08 14:26:03 555

原创 spark，linux配置

这里要注意一下：VMware net work Adpater VMnet8是安装了Vm这个软件之后会自动产生的。重启的命令是reboot，检查是否能Ping通外网。注意:这里的第三个部分的10并不是固定的，我们自己可以约定，但是约定之后就要固定下来。让所有的VM配置的虚拟机使用NAT时，它们的网段都是一致的。修改完成之后，esc退出编辑模式， :wq 保存退出。配置即让自己的虚拟机可以联网，和别的虚拟机通讯。三、设置虚拟机hadoop100的IP。具体设置为：进入虚拟机，修改对应的IP。

2025-02-28 00:06:04 247

原创安装VM和Centos

此刻已完成Centos的安装与创建。5.设置磁盘大小并拆分为多个文件。1.上述过程完成后直接打开虚拟机。3.默认安装位置并点击完成。重启后使用密码进入该系统。6.安装完成后点击重启。二、安装Centos。

2025-02-25 11:05:33 439

原创 spark，vi

1.如果这个文件不存在，此时就是新建文件，编辑器的左下角会提示：new file。d(一个小d)加←删除左侧一个单词，d(一个小d)加→删除右侧一个单词。vi编辑器有三种工作模式，分别为：命令模式，输入模式，底线模式。2.如果文件已存在，此时就打开这个文件，进入命令模式。底线命令模式：以：开始，通常用于文件的保存和退出。2.nyy(n+两个小y)复制当前行往下n行内容。2.ndd(n+两个小d)用来删除当前行往下n行。nyy(n+两个小y)复制当前行往下n行内容。1.yy（两个 y）复制光标所在行的内容。

2025-02-24 20:43:37 291

原创 spark虚拟机

会把aaa、这三个字符写入a.txt文件，并把之前的内容全部覆盖掉（等价于先删除了a.txt的内容，再写入aaa）会把文件的最尾部的内容显示在屏幕上，并且不断刷新，只要文件有更新，就可以看到最新的文件内容。命令是：tar -cvf test.tar 1.txt 2.txt 3.txt。-x 表示解压文件。示例1：把1.txt，2.txt，3.txt压缩到test.tar文件中。格式：tar -cvf 压缩包.tar 文件1 文件2 文件3。-c 建立一个压缩文件，把多个文件或文件夹压缩到一个新的文件中。

2025-02-24 20:32:02 303

原创 spark虚拟机

波浪线，当前用户的home目录，比如root用户home目录是/root。rm -rf ./bbb 将目录及以下所有递归逐一删除，无需用户确认。rm -rf /* 将根目录及以下所有递归逐一删除，无需用户确认。相对路径：当前相对当前工作目录开始的路径，会随着当前路径变化而变化。mkdir -p：创建目录，如果父级目录不存在，就建立一个新目录。删除文件无需用户确如 rm -f ＋文件名（慎用！ll -a 命令，显示当前的目录下的文件，包括隐藏文件。ll 命令，用来显示当前的目录下的文件。

2025-02-21 11:26:10 168

原创 spark

特点：提高处理能力：通过将任务分散到多个节点上并行计算，能够大大提高数据处理的速度和效率，从而可以在短时间内处理海量数据，满足大数据时代对数据处理的实时性和高效性要求。1.硬件资源有限：单机系统的计算能力、存储容量和内存空间都受限于单台计算机的硬件配置。1.无法处理大规模数据：随着业务的发展和数据量的增长，单机系统很快就会遇到存储和处理能力的瓶颈，无法应对海量数据的存储和分析需求。3.应用场景简单：主要用于个人办公、简单的游戏娱乐或小型企业的基本业务处理，如文字处理、单机游戏、简单的库存管理等。

2025-02-21 11:22:38 316

原创大数据笔记

Is -I*con* 列出当前目录下名称中有“con"文件或目录的详细信息。Is -a 列出包括以“.”开始的隐藏文件在内的所有文件。cd /etc/sysconfig/ 切换到/etc/sysconfig目录。■ -R：显示出目录下以及其所有子目录的文件名（包括了隐藏文件）■ -A:显示除隐藏文件“.”和“..”以外的所有文件列表；■ -d：仅显示目录名，而不显示目录下的内容列表。■ -l：以长格式显示目录下的内容列表。

2025-02-21 11:21:27 198

原创 scala思维导图

2024-12-30 14:27:21 123

原创 scala

2024-12-26 09:08:12 90

原创 scala

2024-12-23 07:56:56 238

原创 scala

斐波那契：

2024-12-23 07:54:11 86

原创 scala

2024-12-23 07:52:29 106

空空如也

空空如也