Spark使用经验

最新推荐文章于 2022-02-28 23:00:00 发布

取不出名字了

最新推荐文章于 2022-02-28 23:00:00 发布

阅读量265

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： Spark intellij

本文链接：https://blog.youkuaiyun.com/qq_37692969/article/details/85070570

大数据专栏收录该内容

1 篇文章

订阅专栏

在Ubuntu虚拟机中intellij使用Spark，在此记录一下我用到的知识。有不妥，请指出。不定时更新。

1.日志不输出INFO

首先，在Spark安装目录下conf中找到log4j.prperties文件（蓝框），将里面log4j.rootCategory=INFO, console改为log4j.rootCategory=WARN, console。如果只有红框，可以在命令行里输入sudo cp log4j.properties.template log4j.prperties，生成蓝框文件，再按照之前修改。然后将其复制到项目目录下 src/resources中。

最后，在项目目录下右键resources，选择Mark Directory as --> text resources root，再运行就不会输出INFO了。

2.Spark中DenseVector

参考：Spark MLlib 之 Vector向量深入浅出

3.矩阵向量

参考：Spark MLlib之使用Breeze操作矩阵向量

4.SparkSession的API

我用到的：

API	功能
builder函数	$\color{purple}{public static SparkSession.Builder builder()}$ ：创建 SparkSession.Builder，初始化SparkSession.
time函数	$\color{purple}{public <T> T time(scala.Function0<T> f)}$ ：执行一些代码块并打印输出执行该块所花费的时间。这仅在Scala中可用，主要用于交互式测试和调试。