如何在Spark中记录日志

本文介绍如何在Apache Spark中实现自定义日志记录。通过实例演示了如何设置日志级别,并展示了如何通过创建可序列化的类来确保日志信息能够正确地在集群中传播。

如何在Spark中记录我们自己想要输出的日志

我们可以这样:

object app {
 def main(args: Array[String]) {
   val log = LogManager.getRootLogger
   log.setLevel(Level.WARN)

   val conf = new SparkConf().setAppName("demo-app")
   val sc = new SparkContext(conf)

   log.warn("Hello demo")

   val data = sc.parallelize(1 to 100000)

   log.warn("I am done")
 }
}

这些日志将会打印在shell中并且记录在日志中

但是,如果像下面这样:

val log = LogManager.getRootLogger
val data = sc.parallelize(1 to 100000)

data.map { value => 
   log.info(value)
   value.toString
}

日志将不会输出,因为这个object没有序列化

所以可以改为下面这样:

import org.apache.log4j.{Level, LogManager, PropertyConfigurator}
import org.apache.spark._
import org.apache.spark.rdd.RDD

class Mapper(n: Int) extends Serializable{
 @transient lazy val log = org.apache.log4j.LogManager.getLogger("myLogger")
 def doSomeMappingOnDataSetAndLogIt(rdd: RDD[Int]): RDD[String] =
   rdd.map{ i =>
     log.warn("mapping: " + i)
     (i + n).toString
   }
}
object Mapper {
 def apply(n: Int): Mapper = new Mapper(n)
}
object app {
 def main(args: Array[String]) {
   val log = LogManager.getRootLogger
   log.setLevel(Level.WARN)
   val conf = new SparkConf().setAppName("demo-app")
   val sc = new SparkContext(conf)

   log.warn("Hello demo")

   val data = sc.parallelize(1 to 100000)
   val mapper = Mapper(1)
   val other = mapper.doSomeMappingOnDataSetAndLogIt(data)
   other.collect()

   log.warn("I am done")
 }
}

参考文章

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值