最近接了个云端日志项目,Logstash采集日志,抛到kafka集群,有sparkstreaming进行数据转,根据className查询redis获取相关提交人以及日期带出来,抛到rocketmq供其他部门使用,细节省略;
在spark-submit 提交代码到集群或者客户端运行的时候出现乱码,遇到这种情况,想到的就是编码问题,
因为在在本地运行spark streaming是可以处理中文的,放到集群上就不行了,kafka默认的utf-8,通过val encode=System.getProperty(“file.encoding”) 获取运行时的字符集是ANSI_X3.4-1968
乱码如下:
2018-03-10 11:42:54|changfei",“2017-12-28 17:40:15|lujie”,“2017-12-20 18:42:50|liulihe”,“2017-09-28 10:32:18|lengxiangwu”]}
encoding=ANSI_X3.4-1968
send_status=true
jsonMess{“errTime”:“2019-08-02 15:44:06,094”,“set”:“set4”,“module”:“report”,“ip”:“0.0.0.0”,“serverName”:“set4_report”,“className”:“RptZbzServiceImpl.java”,“traceId”:"",“message”:“2019-08-02 15:44:06,094 [ERROR] [DubboServerHandler-172.16.4.9:20886-thread-2148] c.y.d.r.s.impl.RptZbzServiceImpl [RptZbzServiceImpl.java : 672] ??ztdm:57206880476354
spark on yarn 中文乱码
最新推荐文章于 2025-05-29 12:50:06 发布