休息的老张-优快云博客

原创 spark下，关于saveAsTextFile的使用

spark2.0以后，不少人开始使用SparkSession来处理文件。如果需要保存文件需要将Dataset的值先转rdd，然后再保存。刚看到一个很久以前的帖子，说在Dataset下直接使用saveAsTextFile会报错。以前使用SparkContext保存文件很简单，

2024-04-27 16:32:38 641 4

原创配置spark的HistoryServer

如果需要在spark中配置好historyserver，则需要再修改两处设置。你可以通过http://ip地址:18080查看spark程序的运行。注：首先要手工建立日志记录文件夹，服务器不会自动建立，建立命令如下。如果通过jps能够看到HistoryServer，则说明已经启动了。

2024-04-27 16:09:31 831 3

原创 ubuntu下Hadoop以及Spark的伪分布式安装：四

Pre-build with user-provided Hadoop属于“Hadoop free”版，这样，下载到的Spark，可应用到任意Hadoop 版本。下载地址：https://spark.apache.org/downloads.html#建议使用mget，wget速度很慢Spark部署模式主要有四种：Local模式（单机模式）、Standalone模式（使用Spark自带的简单集群管理器）、YARN模式（使用YARN作为集群管理器）和Mesos模式（使用Mesos作为集群管理器）。

2024-03-30 21:35:05 400

原创 ubuntu下Hadoop以及Spark的伪分布式安装：三

因为使用root用户运行，所以需要在./sbin目录中修改start-yarn.sh和stop-yarn.sh两个文件。如果没有NodeManager和ResourceManager，则需要修改yarn-env.sh，在文件中添加如下三行。注：上面的localhost可以改成具体的IP地址，或者0.0.0.0，就可以从任意地址访问了。如果启动yarn后，能在浏览目录中发现tmp文件夹，说明安装成功。#下面这条命令在新服务器中无法使用了，需要改成下面的新命令。此tmp是网页的逻辑地址，须使用"/"

2024-03-30 21:31:51 571

原创 ubuntu下Hadoop以及Spark的伪分布式安装：二

按照官方教材：伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行，不过若没有配置 hadoop.tmp.dir 参数，则默认使用的临时目录为/tmp/hadoo-hadoop，而这个目录在重启时有可能被系统清理掉，导致必须重新执行 format 才行。注：Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件core-site.xml 和 hdfs-site.xml。

2024-03-30 21:27:56 859

原创 ubuntu下Hadoop以及Spark的伪分布式安装：一

很多初学者在安装的时候会碰到各种各样的问题，尤其各种版本的搭配问题。所以特意做一个初步安装的引导，希望大家都能一次调试出来。经过测试，jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1，这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完美的最后版本为jdk11，后面的版本也可以使用，但是java 11后面的版本去掉了javax.activation，导致无法浏览服务端的文件夹以及文件。

2024-03-30 21:11:28 1120

原创 spark下，关于saveAsTextFile的使用

原创配置spark的HistoryServer

原创 ubuntu下Hadoop以及Spark的伪分布式安装：四

原创 ubuntu下Hadoop以及Spark的伪分布式安装：三

原创 ubuntu下Hadoop以及Spark的伪分布式安装：二

原创 ubuntu下Hadoop以及Spark的伪分布式安装：一

空空如也

请教要如何才能加快IDEA中gradle插件下载的速度？

原创 spark下，关于saveAsTextFile的使用

原创 配置spark的HistoryServer

原创 ubuntu下Hadoop以及Spark的伪分布式安装：四

原创 ubuntu下Hadoop以及Spark的伪分布式安装：三

原创 ubuntu下Hadoop以及Spark的伪分布式安装：二

原创 ubuntu下Hadoop以及Spark的伪分布式安装：一

空空如也

请教要如何才能加快IDEA中gradle插件下载的速度？

原创配置spark的HistoryServer