自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Pip 的安装配置

3.现在可以验证 pip 和 pip3 的设置是否达到了预期目标。(当 pip 包管理工具安装配置好之后,考虑到实际使用时需要访问网络下载软件,下 面将 pip 源改成国内镜像(如阿里云、清华镜像站点等),以加快下载速度)1.在 Linux 终端执行下面的命令安装 pip 工具,然后查看一下 pip 的版本信息,以及 和对应管理的 Python 版本。ps:当 pip 镜像源配置文件修改完毕,可以通过下面的命令进行验证是否有效。2.在 Linux 终端继续执行下面的命令。

2025-03-06 20:06:09 142

原创 PySparkShell 交互编程环境

2.类似 SparkShell 读取文件数据的做法,在这里同样测试一下 PySparkShell 中访问 本地和 HDFS 文件。请先确认一下 HDFS 服务是否正常运行,具体步骤参考前述内容即可,这 里假定 HDFS 已正常运行。(从 PySparkShell 启动输出的提示信息可以看出,Spark2.4.8 使用的是 Python3.6,这 也再次证明之前的配置是正确的)3.测试完毕,直接按下 Ctrl+D 快捷键,或者输入“quit()”就可以退出 PySparkShell 交互编程环境的界面。

2025-03-06 20:03:16 119

原创 Python3.6 的安装

6.注意到,当 Python3.6 成功安装后,在/usr/bin 目录中会多出两个执行程序,即 python3.6 和 python3.6m,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。3.现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6,这 种做法存在一定风险,因为可能影响到其它一些程序的使用。这里准备采取第二种做法,即保留预装的 Python3.8,另外安装一个 Python3.6 运 行环境到系统中。请按照下面步骤将其安装进来。

2025-03-06 19:07:13 293

原创 SparkShell 交互编程环境

3.再新开一个 Linux 终端,在里面输入 jps 命令查看 HDFS 服务是否在运行,如果没有 运行就要先将 HDFS 服务启动,正如在配置 HDFS 服务时所做的那样。我们 先输入下面两行简单的 Scala 代码(不理解也没关系 ps:正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取 本地磁盘的文件)要退出 SparkShell 交互编程环 境,可以按下键盘上的 Ctrl+D 快捷键,或输入“:quit”并回车(冒号输入也包含在内)。

2025-03-06 19:02:25 212

原创 Spark 单机运行环境搭建

1.打开一个 Linux 终端,在其中执行以下命令将 Spark 软件包解压到/usr/local 目录 中,并创建一个软链接文件指向 Spark 目录并修改目录的用户属性。ps:如果一切正常的话,终端上会输出计算得到的 pi 近似值,这个值不固定,所以每次运 行输出的 pi 值是会变化的。2.接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均 位于 conf 目录。3.使用 vi 编辑器修改/etc/profile 文件,在其中添加有关 Spark 的环境变量设置。

2025-03-06 18:57:01 220

原创 HDFS 和 YARN 的测试

5.还可以在 Ubuntu20.04 里面启动浏览器,访问 http://localhost:50070 查看 HDFS 的 WebUI 管理页面,如图 1-38 所示。如果是在 Windows 的浏览器访问,则需要将网址中的 localhost 改成 Ubuntu20.04 虚拟机的 ip 地址(通过 Linux 终端命令 ip addr 可以找到)。1.考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin 目录设置到 PATH 环境变量中。

2025-03-06 18:53:22 118

原创 YARN 的配置

打开 yarn-site.xml 文件,在其中增加与内存检查相关的设置。因为虚拟机使用的 内存和 CPU 资源受限,若要求必须有多少内存和 CPU 核的话,一些应用程序可能就无法正常 启动,在生产环境这两个参数应去掉。配置完毕,可以启动 YARN 服务相关的程序,执行过程中会分别运行 ResourceManager 和 NodeManager 这两个进程。打开 yarn-env.sh,找到其中的 JAVA_HOME 变量进行修改。从 jps 命令的输出结果可以看出,YARN 集群资源管理服务已在运行。

2025-03-06 18:51:31 156

原创 HDFS 的配置

1.切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到 里面的 JAVA_HOME 变量。5.配置文件修改完毕,首次运行之前还要初始化 HDFS 的文件系统,相当于平时的磁盘 格式化操作,这个工作只执行一次。7.使用 jps 命令查看 HDFS 的进程是否正常运行,Java 进程列表中应有 NameNode、 DataNode、SecondaryNameNode 这三个程序在运行,就说明 HDFS 启动正常。

2025-03-06 18:47:41 256

原创 Hadoop 的安装

2.将解压的 hadoop-2.6.5 目录的用户和组权限设一下,方便启动 Hadoop 的时候能够 完全控制这个目录,避免因为文件的访问权限导致出现问题。1.打开 Linux 终端窗体,先解压缩 hadoop-2.6.5.tar.gz 这个软件包,然后像 JDK 一 样建立一个软链接文件。3.测试 Hadoop 是否能够正常使用。

2025-03-06 18:40:34 142

原创 Linux 免密登录

继续在 Linux 终端窗体中执行以下命令,因为远程登录服务 sshd 已经在运行,因此 先在本机通过 ssh 命令执行一下远程连接,测试一下是否正常。通过 ssh-copy-id 命令,可以把本地主机的公钥复制到远程主机的 authorized_keys 文件上,以便双方连接通信时使用。在本机通过 ssh 命令再次执行一下远程连接,测试一下是否能够免密登录,正常的 话此时就不再需要输入密码,ssh 就能够连接成功。通过 ssh-keygen 生成免密登录所需的密钥信息。

2025-03-06 18:36:10 207

原创 Hadoop 伪分布集群环境搭建

保存退出 vi 编辑器,回到 Linux 终端测试一下 JDK 的配置是否正常。如果出现以下 信息,说明 JDK 的配置是正确的,JDK 的安装也就完成了。JDK 安装完毕,最好重新启动一下 Ubuntu20.04 虚拟机,这样设置的环境变量就会 在 Linux 系统全局生效。打开一个 Linux 终端,在其中执行以下命令,将 JDK 解压缩到/usr/local 目录中,修改/etc/profile 文件,在其中添加有关 JDK 的环境变量设置。1.JDK 的安装配置。

2025-03-06 18:34:00 138

原创 使用MobaXterm 远程连接工具

在 MobaXterm 窗体左上角找到 Session 图标,点击后会打开一个连接会话设置窗体,这 个窗体列出了 MobaXterm 支持的各种远程连接类型,点击选择其中的第一项 SSH 图标,输入 虚拟机的 IP 地址,然后指定登录所用的帐号 spark,再点击 OK 即可。

2025-03-06 18:24:40 475

原创 Spark 大数据环境搭建

为避免版本冲突先卸载内置的 openssh-client,在安装 openssh-server 时会自动 安装匹配版本的 openssh-client。当 vim 安装完毕,在终端输入 vi 或 vim 命令,实际启动的。当 vim 安装完毕,在终端输入 vi 或 vim 命令,实际启动的。继续输入下面的命令安装 vim,即 vi 编辑器的增强版,它支持一些更丰富的功能,继续输入下面的命令安装 vim,即 vi 编辑器的增强版,它支持一些更丰富的功能,此外,还可以通过终端命令启动编辑器,

2025-03-06 18:12:43 253

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除