自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(6)
  • 收藏
  • 关注

原创 spark下,关于saveAsTextFile的使用

spark2.0以后,不少人开始使用SparkSession来处理文件。如果需要保存文件需要将Dataset的值先转rdd,然后再保存。刚看到一个很久以前的帖子,说在Dataset下直接使用saveAsTextFile会报错。以前使用SparkContext保存文件很简单,

2024-04-27 16:32:38 641 4

原创 配置spark的HistoryServer

如果需要在spark中配置好historyserver,则需要再修改两处设置。你可以通过http://ip地址:18080查看spark程序的运行。注:首先要手工建立日志记录文件夹,服务器不会自动建立,建立命令如下。如果通过jps能够看到HistoryServer,则说明已经启动了。

2024-04-27 16:09:31 831 3

原创 ubuntu下Hadoop以及Spark的伪分布式安装:四

Pre-build with user-provided Hadoop属于“Hadoop free”版,这样,下载到的Spark,可应用到任意Hadoop 版本。下载地址:https://spark.apache.org/downloads.html#建议使用mget,wget速度很慢Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。

2024-03-30 21:35:05 400

原创 ubuntu下Hadoop以及Spark的伪分布式安装:三

因为使用root用户运行,所以需要在./sbin目录中修改start-yarn.sh和stop-yarn.sh两个文件。如果没有NodeManager和ResourceManager,则需要修改yarn-env.sh,在文件中添加如下三行。注:上面的localhost可以改成具体的IP地址,或者0.0.0.0,就可以从任意地址访问了。如果启动yarn后,能在浏览目录中发现tmp文件夹,说明安装成功。#下面这条命令在新服务器中无法使用了,需要改成下面的新命令。此tmp是网页的逻辑地址,须使用"/"

2024-03-30 21:31:51 571

原创 ubuntu下Hadoop以及Spark的伪分布式安装:二

按照官方教材:伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行,不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为/tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。注:Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/中,伪分布式需要修改2个配置文件core-site.xml 和 hdfs-site.xml。

2024-03-30 21:27:56 859

原创 ubuntu下Hadoop以及Spark的伪分布式安装:一

很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完美的最后版本为jdk11,后面的版本也可以使用,但是java 11后面的版本去掉了javax.activation,导致无法浏览服务端的文件夹以及文件。

2024-03-30 21:11:28 1120

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除