1代码优化 在数据统计的时候选用高性能算子 写数据库的时候关闭自动提交,不要每条数据提交一次,自己手动每个批次提交一次 复用已有的数据 2集群压缩格式选用snappy 3集群储存格式选用parquet 4参数优化 并行度优化