spark代码中添加logger_JAVA代码如何设置SPARK的日志打印级别

最新推荐文章于 2023-09-13 16:04:19 发布

原创最新推荐文章于 2023-09-13 16:04:19 发布 · 508 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark代码中添加logger

本文介绍了一种在使用 Spark SQL 过程中遇到的问题及解决方案。问题表现为在添加 where 条件过滤时，系统会打印大量被过滤的记录，严重影响了 Spark SQL 的运行效率。文章提供了通过调整 Spark 日志级别来避免打印过滤信息的方法。

问题场景：在使用spark sql 增加where条件过滤时，会出现打印很多的被过滤掉的记录(几十万条)，导致跑spark sql 特别慢！

var df2 = sqc.sql("SELECT * FROM T_COMMISIONRATEDEF WHERE T_INSURANCETYPE = '630' ORDER BY T_INSURANCETYPE DESC " )

执行时，打印截图：

解决方法：

设置spark 的日志级别，不打印过滤INFO信息

1)代码中使用呢代理设置：关键参考代码如下

import org.apache.log4j.Level

Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)

Logger.getLogger("org.apache.hadoop").setLevel(Level.ERROR)

Logger.getLogger("org.apache.zookeeper").setLevel(Level.ERROR)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39998521

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

spark编程09——设置spark-submit提交程序时不在控制台打印日志信息+nohup 命令

SYITwin的博客

04-08

4081

在用spark-submit提交程序时，会打印很多类似图片所示的日志信息，它们会把想要的结果给淹没，所以要想法去除控制台的日志信息。解决办法：程序中设置日志级别，然后将运行结果保存在nohup.out文件中 //程序中导入 import org.apache.log4j.{Level, Logger} //下面两行代码放在main函数里 Logger.getLogger("org.apache.spark").setLevel(Level.WARN) Logger.getLogge..

spark kmeans java_Spark实现K-Means算法代码示例

weixin_39926402的博客

02-26

437

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是KMean||得来的，迭代达到一定的次数，或者所有run都收敛时，算法就结束。用Spark实现K-Means算法，首先修改pom文件，引入机器学习...

参与评论您还未登录，请先登录后发表或查看评论

JAVA代码如何设置SPARK的日志打印级别

wumiqing1的博客

12-19

3104

问题场景：在使用spark sql 增加where条件过滤时，会出现打印很多的被过滤掉的记录（几十万条），导致跑spark sql 特别慢！ var df2 = sqc.sql("SELECT * FROM T_COMMISIONRATEDEF WHERE T_INSURANCETYPE = '630' ORDER BY T_INSURANCETYPE DESC " ) 执行时，打印截

spark java 日志打印,Spark local模式自定义日志输出

weixin_42134168的博客

03-11

1450

Spark每个任务输出一次日志文件版本信息:spark-2.4.3hadoop-2.6.4前些天在解决spark local模式的日志输出问题，需要每次执行一次spark作业就把该次作业的日志输出到一个日志文件中，这里记录下，分享下实现过程以及踩的坑;先自定义一个FileAppender,如下:package com.demo.util;import org.apache.log4j.FileAp...

【spark】控制日志输出的方法

hyj

09-07

8007

【spark】控制日志输出的方法

spark java 日志打印,通过记录器的Java Spark应用程序日志未显示在EMR日志中

weixin_39765695的博客

03-11

350

我有一个在EMR上运行的Spice Java应用程序。当我试图运行SCAPLE作业本地登录到EMR EC2实例时,我从控制台上的Java应用程序获取日志记录信息。/usr/lib/spark/bin/spark-submit --class com.myproject.MyMainSparkClass --conf 'spark.driver.extraJavaOptions=-Dcong.par...

spark代码中添加logger_Spark运用-恢复实时数据

weixin_31193137的博客

01-08

301

业务背景目前在个人的网站和小程序中上线了文章模块，于是想在网站的功能集锦模块中将每日文章访问的实时数据进行展示，由于当作一个小的功能集成到网站中，所以并没有使用太多的中间件，只是单纯的在拦截器那里加一些逻辑将文章访问数据存入到内存中(并不是Redis)，然后提供接口将数据在页面上进行展示。于是就出现了一个问题，由于是小功能嵌入到网站上，更改重启很频繁，导致每次重启今日文章数据都会丢失，最终想到利用...

spark6. 如何设置spark 日志

笔生花的博客

09-13

1909

本文只讲解再yarn 模式下的日志配置。

java spark 消费kafka_sparkstreaming消费kafka消息

weixin_30678347的博客

02-24

634

之前我们已经介绍过怎么把nginx日志同步到kafka，现在我们尝试消费里面的消息并固化到hdfs里面；在实施方案前，假设读者已经熟悉以下技术 (不细说)Java及其Spring框架的基本使用Spark和Spark streaming原理kudu的基本使用方案实施sparkstreaming 消费 kafka遍历rdd过程把日志数据新增到kudu中最后在kudu的数据可以用impala查询建好表...

spark-client模式下，设置spark的日志级别

搬砖の隔壁老王

06-06

2499

# Set everything to be logged to the console log4j.rootCategory=WARN,console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.consol

Spark-logging

oblesslyy的专栏

05-21

2261

Spark-logging@(spark)[logging]代码目录src/main/scala/org/apache/spark/Logging.scala 这是一个非常简单的类，作为第一篇spark笔记非常合适基本上这个class的主要用途就是包装了一下log4j，把它变成要给trait，可以很简单的在代码中使用。 1. 作为scala的入门读物很好。 2. 需要注意的是，这个Logg

spark labeledpoint函数用法_基于Spark的用户行为路径分析

weixin_39638305的博客

11-30

303

一、研究背景互联网行业越来越重视自家客户的一些行为偏好了，无论是电商行业还是金融行业，基于用户行为可以做出很多东西，电商行业可以归纳出用户偏好为用户推荐商品，金融行业可以把用户行为作为反欺诈的一个点，本文主要介绍其中一个重要的功能点，基于行为日志统计用户行为路径，为运营人员提供更好的运营决策。可以实现和成熟产品如adobe analysis类似的用户行为路径分析。最终效果如图。使用的是开源大数据可...

spark代码中添加logger_spark入门（四）日志配置

weixin_30204677的博客

01-13

804

1 背景在测试spark计算时，将作业提交到yarn(模式–master yarn-cluster)上，想查看print到控制台这是很难的，因为作业是提交到yarn的集群上，所以，去yarn集群上看日志是很麻烦的，但是又需要看print的信息，方便调试或者别的目的。Spark日志确切的存放路径和部署模式相关，如果是YARN模式，最简单地收集日志的方式是使用YARN的日志收集工具(yarn logs...

Spark - Logging 简单使用

BITDDD小栈

06-06

1852

使用 Spark 运行任务打日志经常遇到一个问题就是日志太多，除了自己的 print 日志之外，还有很多 Executor、client 的日志，一方面任务运行期间会占用更多的机器存储，其次也不方便查询自己的 print 日志。下面介绍下常用的日志系统与使用方法。......

spark代码中添加logger_使用Log4j在日志中输出Spark应用程序ID

weixin_42172204的博客

12-23

513

I have a custom Log4j file for the Spark application. I would like to output Spark app id along with other attributes like message and date so the JSON string structure would look like this:{"name":,"...

spark代码中添加logger_SBT命令行打包spark程序

weixin_29115367的博客

01-08

287

安装sbtsbt是一款Spark用来对scala编写程序进行打包的工具，这里简单介绍sbt的安装过程，感兴趣的读者可以参考官网资料了解更多关于sbt的内容。Spark 中没有自带 sbt，这里直接给出sbt-launch.jar的下载地址（https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11...

设置Spark程序设置日志打印级别

再难也要坚持的博客

03-12

983

在maven项目中设置Spark程序的日志打印级别：引入logger4j和slf4j的依赖 <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>1.2.17</version> </dep...

spark代码中添加logger_Spark RDD中Runtime流程解析

weixin_42250528的博客

01-07

222

一、Runtime架构图(1)从Spark Runtime的角度讲，包括五大核心对象：Master、Worker、Executor、Driver、CoarseGrainedExecutorBackend。(2)Spark在做分布式集群系统设计的时候：最大化功能独立、模块化封装具体独立的对象、强内聚松耦合。Spark运行架构图如下图所示。(3)当Driver中的SparkContext初始化时会提交...

【java-spark】mysql2mysql

weixin_37630333的博客

09-14

260

testcc表数据新建表testcc_test CREATE TABLE `testcc_test` ( `id` int(11) NOT NULL AUTO_INCREMENT, `c` varchar(255) DEFAULT NULL, `mark` varchar(255) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8; 运行代码，插入数据结果如下图

java连接spark日志输出