- 博客(45)
- 收藏
- 关注
原创 Linux上安装MySQL
由于spark sql连接mysql在底层仍是通过Java实现的,因此还需要=将连接JDBC的JAR包文件复制到spark安装目录的jars文件夹中。当在Spark的安装目录新增了一个连接MySQL的JDBC驱动文件,为了使其生效,还应将当前正在运行的PySparkShell交互式编程环境退出。在Ubuntu环境下安装MySQL,可以通过软件源仓库在线安装,也可以自行下载合适的离线版本安装。更新安装源 ,安装MySQL ,查看MySQL的运行状态(运行中)解压缩 JDBC 的 jar 包文件。
2025-04-01 09:38:14
395
原创 词频统计(Word count)
1)数据源: /usr/local/spark/licenses/LICENSE-py4j.txt :2)请在PySpark编程环境中输入下面的代码:
2025-03-17 14:47:02
254
原创 max/min/sum/mean操作(max/min/sum/mean operations)
2)这几个方法的调用分别是rdd数据集的最大、最小、和、平均值,它们都是数值类型。
2025-03-17 14:05:55
267
原创 foreach操作(foreach operation)
2)Spark将集合数据分配到了多个CPU核上去并行执行,无法保证输出按原有的数字位置顺序。
2025-03-17 14:01:37
126
原创 mapValues和flatMapValues操作(mapValues and flatMapValues operations)
1)下面通过一个使用了mapValues()和flatMapValues()的示例代码进行说明:
2025-03-17 13:44:10
146
原创 sortByKey排序数据(Sort data by sortByKey)
1)下面以具体的例子代码分别给出sortByKey()方法的几种使用途径:
2025-03-17 13:20:40
94
原创 sortBy排序数据(Sort data with sortBy)
1)下面是一个简单的sortBy()的例子:2)定义一个更为通用的sortBy()例子代码:
2025-03-11 23:45:00
148
原创 flatMap转换数据(Transform data with flatMap)
1)在PySpark编程环境中输入以下的代码:2)再接着输入下面的代码执行,分析一下出现的结果:
2025-03-11 10:17:07
170
原创 从文本文件创建 RDD
1)先准备两个文本文件,分别存放在本地磁盘目录和 HDFS 中:2)根据实际情况启动 HDFS 服务:3)将数据文件上传至 HDFS 中:4)从数据文件创建对应的RDD数据集:5)查看一下所创建的RDD数据集的具体内容:
2025-03-11 09:23:42
87
原创 从集合元素创建 RDD(Create RDD from collections)
1)使用 parallelize()方法从普通集合元素创建 RDD。
2025-03-06 00:09:01
116
原创 Spark RDD 常用操作(Common operations in Spark RDD)
2)在其中输入下面的代码,可以查看 RDD 类包含的功能方法(在 Spark 中有一个专门的术语,称为 “算子”):(输完rdd1.之后连续敲两次键盘上的tab键)
2025-03-04 23:54:06
169
原创 Spark单机运行环境搭建(6.Spark框架目录结构)
的系统目录中包含有一系列的文件和子目录内容,每。个目录都有其特定的目的和用途。安装目录的内容结构如图所示。
2025-03-04 17:19:31
214
原创 Spark单机运行环境搭建(5.Pip的安装配置)
包管理工具安装配置好之后,考虑到实际使用时需要访问网络下载软件,下。源改成国内镜像(如阿里云、清华镜像站点等),以加快下载速度。的设置是否达到了预期目标。终端执行下面的命令安装。
2025-03-04 17:02:32
121
原创 Spark单机运行环境搭建(4.PySparkShell 交互编程环境)
1)当 Python3.6 运行环境准备就绪,现在就可以启动 PySparkShell 交互编程环境了。服务是否正常运行,具体步骤参考前述内容即可,这里假定HDFS。如果不出意外的话,应该会打印输出从文件中读取到的数据。读取文件数据的做法,在这里同样测试一下。也再次证明之前的配置是正确的。启动输出的提示信息可以看出,中访问本地和HDFS。)测试完毕,直接按下。交互编程环境的界面。
2025-03-04 13:39:48
133
原创 Spark 单机运行环境搭建(3.Python3.6 的安装)
python3.6 和 python3.6m,其中后者在内存分配方式上做了优化,实际使用时任选其一即可。这里准备采取第二种做法,即保留预装的 Python3.8,另外安装一个 Python3.6 运。2)现在面临两个选择,一是将系统默认安装的 Python3.8 卸载替换成 Python3.6,这。3)现在可以开始安装 Python 3.6,安装完毕查看一下 Python3.6 的启动程序。注意到,当 Python3.6 成功安装后,在/usr/bin 目录中会多出两个执行程序,即。
2025-03-04 12:56:07
232
原创 Spark 单机运行环境搭建(2.SparkShell 交互编程环境)
2)Spark 是用 Scala 语言开发的,当 SparkShell 启动后就支持运行 Scala 代码。个文件,路径为:/mydata/hello.txt,下面准备测试在 SparkShell 中读取这个文件。前面测试 HDFS 时已经上传过一。5)通过上述的测试,说明 Spark 的安装配置是正确的。正常的话,运行完毕就会打印输出 hello.txt 文件中的内容,说明 Spark 可以正常读取。境,可以按下键盘上的 Ctrl+D 快捷键,或输入“:quit”并回车(冒号输入也包含在内)。
2025-03-04 10:22:57
270
原创 Spark 单机运行环境搭建(1.Spark 的安装配置)
(PS:我自己的软件包在/home/spark,我们可以查找一下,更加确定。1)打开一个 Linux 终端,在其中执行以下命令将 Spark 软件包解压到/usr/local 目录。2)使用 vi 编辑器修改/etc/profile 文件,在其中添加有关 Spark 的环境变量设置。2)接下来开始配置 Spark 运行环境,相比而言 Spark 的配置更简单,所有配置文件均。如果一切正常的话,终端上会输出计算得到的 pi 近似值,这个值不固定,所以每次运。行输出的 pi 值是会变化的。
2025-03-04 10:01:20
155
原创 Hadoop 伪分布集群环境搭建(6.HDFS 和 YARN 的测试)
的WebUI管理页面,如图所示。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的ip地址(通过Linux终端命令ip addr可以找到)。如果是在Windows的浏览器访问,则需要将网址中的localhost改成Ubuntu20.04虚拟机的IP地址才行。考虑到后续还会经常执行一些 Hadoop 的相关命令,为方便起见这里先把 Hadoop 的 bin。命令,除非重启动虚拟机才会全局有效。,比如创建目录,上传文件等。里面启动浏览器,访问。
2025-03-04 09:08:25
180
原创 Hadoop 伪分布集群环境搭建(5.YARN的配置)
文件,在其中增加与内存检查相关的设置。服务相关的程序,执行过程中会分别运行。核的话,一些应用程序可能就无法正常。启动,在生产环境这两个参数应去掉。资源受限,若要求必须有多少内存和。集群资源管理服务已在运行。命令的输出结果可以看出,)配置完毕,可以启动。
2025-03-03 00:48:16
292
原创 Hadoop 伪分布集群环境搭建(4.HDFS 的配置)
Hadoop 没有使用 Linux 操作系统设置的 JAVA_HOME 环境变量,而。1)切换到 Hadoop 的配置文件目录,先修改其中的 hadoop-env.sh 运行环境文件,找到。是内部重新定义了一个 JAVA_HOME,所以就要告知 Hadoop 所依赖的 JDK 安装位置。如果要重新初始化,应先清除相关目录中的内容(存储过的数据会丢失),否则执行会失败。这里配置的是单节点,里面默认就是。配置文件的内容,这个文件中有运行。的文件系统,相当于平时的磁盘。的进程是否正常运行,
2025-03-03 00:30:14
239
原创 Hadoop 伪分布集群环境搭建(3.Hadoop 的安装)
1)打开 Linux 终端窗体,先解压缩 hadoop-2.6.5.tar.gz 这个软件包,然后像 JDK 一。2)将解压的 hadoop-2.6.5 目录的用户和组权限设一下,方便启动 Hadoop 的时候能够。样建立一个软链接文件。(还是先把所需文件传到虚拟机中)完全控制这个目录,避免因为文件的访问权限导致出现问题。3)测试 Hadoop 是否能够正常使用。找到正确的路径,然后再次进行测试。则尝试先cd hadoop。
2025-03-02 22:33:21
183
原创 Hadoop 伪分布集群环境搭建(2.Linux 免密登录)
3)通过 ssh-copy-id 命令,可以把本地主机的公钥复制到远程主机的 authorized_keys。1)继续在 Linux 终端窗体中执行以下命令,因为远程登录服务 sshd 已经在运行,因此。4)在本机通过 ssh 命令再次执行一下远程连接,测试一下是否能够免密登录,正常的。先在本机通过 ssh 命令执行一下远程连接,测试一下是否正常。2)通过 ssh-keygen 生成免密登录所需的密钥信息。话此时就不再需要输入密码,ssh 就能够连接成功。文件上,以便双方连接通信时使用。
2025-03-02 21:20:41
196
原创 Hadoop 伪分布集群环境搭建(1.JDK 的安装配置)
1)打开一个 Linux 终端,在其中执行以下命令,将 JDK 解压缩到/usr/local 目录中,3)保存退出 vi 编辑器,回到 Linux 终端测试一下 JDK 的配置是否正常。4)JDK 安装完毕,最好重新启动一下 Ubuntu20.04 虚拟机,这样设置的环境变量就会。2)修改/etc/profile 文件,在其中添加有关 JDK 的环境变量设置。并创建一个软链接指向 JDK 目录(相当于 Windows 的快捷方式)。信息,说明 JDK 的配置是正确的,JDK 的安装也就完成了。
2025-03-02 19:20:29
172
原创 MobaXterm 远程连接工具(MobaXterm remote connection tool)
4)在 MobaXterm 窗体的找到 Session 图标打开一个连接会话设置窗体,选择其中的第一项 SSH 图标,输入需要连接的远程服务器地址,指定登录所用的帐号 spark1,再点击 OK。6)输入连接所用帐户 spark1 的密码并回车,在弹出的是否要保存密码的窗体中,勾选“Do not show this message again”,然后点击 No 不保存登录密码。5)首次连接远程服务器时,会显示一个确认窗体,勾选“Do not show this message again”,然后。
2025-03-02 02:53:22
409
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人