- 博客(6)
- 收藏
- 关注
原创 spark下,关于saveAsTextFile的使用
spark2.0以后,不少人开始使用SparkSession来处理文件。如果需要保存文件需要将Dataset的值先转rdd,然后再保存。刚看到一个很久以前的帖子,说在Dataset下直接使用saveAsTextFile会报错。以前使用SparkContext保存文件很简单,
2024-04-27 16:32:38
641
4
原创 配置spark的HistoryServer
如果需要在spark中配置好historyserver,则需要再修改两处设置。你可以通过http://ip地址:18080查看spark程序的运行。注:首先要手工建立日志记录文件夹,服务器不会自动建立,建立命令如下。如果通过jps能够看到HistoryServer,则说明已经启动了。
2024-04-27 16:09:31
831
3
原创 ubuntu下Hadoop以及Spark的伪分布式安装:四
Pre-build with user-provided Hadoop属于“Hadoop free”版,这样,下载到的Spark,可应用到任意Hadoop 版本。下载地址:https://spark.apache.org/downloads.html#建议使用mget,wget速度很慢Spark部署模式主要有四种:Local模式(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为集群管理器)。
2024-03-30 21:35:05
400
原创 ubuntu下Hadoop以及Spark的伪分布式安装:三
因为使用root用户运行,所以需要在./sbin目录中修改start-yarn.sh和stop-yarn.sh两个文件。如果没有NodeManager和ResourceManager,则需要修改yarn-env.sh,在文件中添加如下三行。注:上面的localhost可以改成具体的IP地址,或者0.0.0.0,就可以从任意地址访问了。如果启动yarn后,能在浏览目录中发现tmp文件夹,说明安装成功。#下面这条命令在新服务器中无法使用了,需要改成下面的新命令。此tmp是网页的逻辑地址,须使用"/"
2024-03-30 21:31:51
571
原创 ubuntu下Hadoop以及Spark的伪分布式安装:二
按照官方教材:伪分布式虽然只需要配置 fs.defaultFS 和 dfs.replication 就可以运行,不过若没有配置 hadoop.tmp.dir 参数,则默认使用的临时目录为/tmp/hadoo-hadoop,而这个目录在重启时有可能被系统清理掉,导致必须重新执行 format 才行。注:Hadoop 的配置文件位于/usr/local/hadoop/etc/hadoop/中,伪分布式需要修改2个配置文件core-site.xml 和 hdfs-site.xml。
2024-03-30 21:27:56
859
原创 ubuntu下Hadoop以及Spark的伪分布式安装:一
很多初学者在安装的时候会碰到各种各样的问题,尤其各种版本的搭配问题。所以特意做一个初步安装的引导,希望大家都能一次调试出来。经过测试,jdk11 + scala2.13.13 + hadoop3.3.6+spark3.5.1,这是暂时来说scalsa2能支持的最完美的搭配。Hadoop能支持到的java最完美的最后版本为jdk11,后面的版本也可以使用,但是java 11后面的版本去掉了javax.activation,导致无法浏览服务端的文件夹以及文件。
2024-03-30 21:11:28
1120
空空如也
请教要如何才能加快IDEA中gradle插件下载的速度?
2024-09-12
TA创建的收藏夹 TA关注的收藏夹
TA关注的人