spark on yarn 中文乱码

最新推荐文章于 2025-05-29 12:50:06 发布

weixin_43370502

最新推荐文章于 2025-05-29 12:50:06 发布

阅读量2.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Spark Yarn 文章标签： Spark Yarn

本文链接：https://blog.youkuaiyun.com/weixin_43370502/article/details/98208918

最近接了个云端日志项目，Logstash采集日志，抛到kafka集群，有sparkstreaming进行数据转，根据className查询redis获取相关提交人以及日期带出来，抛到rocketmq供其他部门使用，细节省略；
在spark-submit 提交代码到集群或者客户端运行的时候出现乱码，遇到这种情况，想到的就是编码问题，
因为在在本地运行spark streaming是可以处理中文的，放到集群上就不行了，kafka默认的utf-8，通过val encode=System.getProperty(“file.encoding”) 获取运行时的字符集是ANSI_X3.4-1968
乱码如下：
2018-03-10 11:42:54|changfei",“2017-12-28 17:40:15|lujie”,“2017-12-20 18:42:50|liulihe”,“2017-09-28 10:32:18|lengxiangwu”]}
encoding=ANSI_X3.4-1968
send_status=true
jsonMess{“errTime”:“2019-08-02 15:44:06,094”,“set”:“set4”,“module”:“report”,“ip”:“0.0.0.0”,“serverName”:“set4_report”,“className”:“RptZbzServiceImpl.java”,“traceId”:"",“message”:“2019-08-02 15:44:06,094 [ERROR] [DubboServerHandler-172.16.4.9:20886-thread-2148] c.y.d.r.s.impl.RptZbzServiceImpl [RptZbzServiceImpl.java : 672] ??ztdm:57206880476354