鱼鱼不余_-优快云博客

原创 Pip 的安装配置

3.现在可以验证 pip 和 pip3 的设置是否达到了预期目标。（当 pip 包管理工具安装配置好之后，考虑到实际使用时需要访问网络下载软件，下面将 pip 源改成国内镜像（如阿里云、清华镜像站点等），以加快下载速度）1.在 Linux 终端执行下面的命令安装 pip 工具，然后查看一下 pip 的版本信息，以及和对应管理的 Python 版本。ps：当 pip 镜像源配置文件修改完毕，可以通过下面的命令进行验证是否有效。2.在 Linux 终端继续执行下面的命令。

2025-03-06 20:06:09 142

原创 PySparkShell 交互编程环境

2.类似 SparkShell 读取文件数据的做法，在这里同样测试一下 PySparkShell 中访问本地和 HDFS 文件。请先确认一下 HDFS 服务是否正常运行，具体步骤参考前述内容即可，这里假定 HDFS 已正常运行。（从 PySparkShell 启动输出的提示信息可以看出，Spark2.4.8 使用的是 Python3.6，这也再次证明之前的配置是正确的）3.测试完毕，直接按下 Ctrl+D 快捷键，或者输入“quit()”就可以退出 PySparkShell 交互编程环境的界面。

2025-03-06 20:03:16 119

原创 Python3.6 的安装

6.注意到，当 Python3.6 成功安装后，在/usr/bin 目录中会多出两个执行程序，即 python3.6 和 python3.6m，其中后者在内存分配方式上做了优化，实际使用时任选其一即可。3.现在面临两个选择，一是将系统默认安装的 Python3.8 卸载替换成 Python3.6，这种做法存在一定风险，因为可能影响到其它一些程序的使用。这里准备采取第二种做法，即保留预装的 Python3.8，另外安装一个 Python3.6 运行环境到系统中。请按照下面步骤将其安装进来。

2025-03-06 19:07:13 293

原创 SparkShell 交互编程环境

3.再新开一个 Linux 终端，在里面输入 jps 命令查看 HDFS 服务是否在运行，如果没有运行就要先将 HDFS 服务启动，正如在配置 HDFS 服务时所做的那样。我们先输入下面两行简单的 Scala 代码（不理解也没关系 ps:正常的话，运行完毕就会打印输出 hello.txt 文件中的内容，说明 Spark 可以正常读取本地磁盘的文件)要退出 SparkShell 交互编程环境，可以按下键盘上的 Ctrl+D 快捷键，或输入“:quit”并回车（冒号输入也包含在内）。

2025-03-06 19:02:25 212

原创 Spark 单机运行环境搭建

1.打开一个 Linux 终端，在其中执行以下命令将 Spark 软件包解压到/usr/local 目录中，并创建一个软链接文件指向 Spark 目录并修改目录的用户属性。ps：如果一切正常的话，终端上会输出计算得到的 pi 近似值，这个值不固定，所以每次运行输出的 pi 值是会变化的。2.接下来开始配置 Spark 运行环境，相比而言 Spark 的配置更简单，所有配置文件均位于 conf 目录。3.使用 vi 编辑器修改/etc/profile 文件，在其中添加有关 Spark 的环境变量设置。

2025-03-06 18:57:01 220

原创 HDFS 和 YARN 的测试

5.还可以在 Ubuntu20.04 里面启动浏览器，访问 http://localhost:50070 查看 HDFS 的 WebUI 管理页面，如图 1-38 所示。如果是在 Windows 的浏览器访问，则需要将网址中的 localhost 改成 Ubuntu20.04 虚拟机的 ip 地址（通过 Linux 终端命令 ip addr 可以找到）。1.考虑到后续还会经常执行一些 Hadoop 的相关命令，为方便起见这里先把 Hadoop 的 bin 目录设置到 PATH 环境变量中。

2025-03-06 18:53:22 118

原创 YARN 的配置

打开 yarn-site.xml 文件，在其中增加与内存检查相关的设置。因为虚拟机使用的内存和 CPU 资源受限，若要求必须有多少内存和 CPU 核的话，一些应用程序可能就无法正常启动，在生产环境这两个参数应去掉。配置完毕，可以启动 YARN 服务相关的程序，执行过程中会分别运行 ResourceManager 和 NodeManager 这两个进程。打开 yarn-env.sh，找到其中的 JAVA_HOME 变量进行修改。从 jps 命令的输出结果可以看出，YARN 集群资源管理服务已在运行。

2025-03-06 18:51:31 156

原创 HDFS 的配置

1.切换到 Hadoop 的配置文件目录，先修改其中的 hadoop-env.sh 运行环境文件，找到里面的 JAVA_HOME 变量。5.配置文件修改完毕，首次运行之前还要初始化 HDFS 的文件系统，相当于平时的磁盘格式化操作，这个工作只执行一次。7.使用 jps 命令查看 HDFS 的进程是否正常运行，Java 进程列表中应有 NameNode、 DataNode、SecondaryNameNode 这三个程序在运行，就说明 HDFS 启动正常。

2025-03-06 18:47:41 256

原创 Hadoop 的安装

2.将解压的 hadoop-2.6.5 目录的用户和组权限设一下，方便启动 Hadoop 的时候能够完全控制这个目录，避免因为文件的访问权限导致出现问题。1.打开 Linux 终端窗体，先解压缩 hadoop-2.6.5.tar.gz 这个软件包，然后像 JDK 一样建立一个软链接文件。3.测试 Hadoop 是否能够正常使用。

2025-03-06 18:40:34 142

原创 Linux 免密登录

继续在 Linux 终端窗体中执行以下命令，因为远程登录服务 sshd 已经在运行，因此先在本机通过 ssh 命令执行一下远程连接，测试一下是否正常。通过 ssh-copy-id 命令，可以把本地主机的公钥复制到远程主机的 authorized_keys 文件上，以便双方连接通信时使用。在本机通过 ssh 命令再次执行一下远程连接，测试一下是否能够免密登录，正常的话此时就不再需要输入密码，ssh 就能够连接成功。通过 ssh-keygen 生成免密登录所需的密钥信息。

2025-03-06 18:36:10 207

原创 Hadoop 伪分布集群环境搭建

保存退出 vi 编辑器，回到 Linux 终端测试一下 JDK 的配置是否正常。如果出现以下信息，说明 JDK 的配置是正确的，JDK 的安装也就完成了。JDK 安装完毕，最好重新启动一下 Ubuntu20.04 虚拟机，这样设置的环境变量就会在 Linux 系统全局生效。打开一个 Linux 终端，在其中执行以下命令，将 JDK 解压缩到/usr/local 目录中，修改/etc/profile 文件，在其中添加有关 JDK 的环境变量设置。1.JDK 的安装配置。

2025-03-06 18:34:00 138

原创使用MobaXterm 远程连接工具

在 MobaXterm 窗体左上角找到 Session 图标，点击后会打开一个连接会话设置窗体，这个窗体列出了 MobaXterm 支持的各种远程连接类型，点击选择其中的第一项 SSH 图标，输入虚拟机的 IP 地址，然后指定登录所用的帐号 spark，再点击 OK 即可。

2025-03-06 18:24:40 475

原创 Spark 大数据环境搭建

为避免版本冲突先卸载内置的 openssh-client，在安装 openssh-server 时会自动安装匹配版本的 openssh-client。当 vim 安装完毕，在终端输入 vi 或 vim 命令，实际启动的。当 vim 安装完毕，在终端输入 vi 或 vim 命令，实际启动的。继续输入下面的命令安装 vim，即 vi 编辑器的增强版，它支持一些更丰富的功能，继续输入下面的命令安装 vim，即 vi 编辑器的增强版，它支持一些更丰富的功能，此外，还可以通过终端命令启动编辑器，

2025-03-06 18:12:43 253

2501_90823916的博客