
大数据
tyuopwazs
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sparkSQL性能优化
原创 2020-03-16 13:33:19 · 151 阅读 · 0 评论 -
Spark streaming 性能优化
1 使用kryo序列化 2 调整batch interval时间 默认时间是200ms 每接受一次实际上就是一份task 就会在一份patition上面运行,根据自己设置指定大小的interval 例如batch interval是200ms batch的时间长度是1s 那么就会划分出1s/200ms==》五份patition 也就是五个并行度 最好并行度是core的2-3倍 3 spark....原创 2020-03-16 10:48:25 · 215 阅读 · 0 评论 -
spark性能调优总结
1 序列化优化 使用高性能的序列化框架 kryo框架 大部分已经注册 如果没有注册 而是自定义的类 SparkConf conf = new SparkConf().set("spark.serializer","org.apach.spark.serializer.Kryoserializer") 那么要注册 2 数据结构优化 使用int代替UUID 使用数组等代替集...原创 2020-03-13 22:26:48 · 208 阅读 · 0 评论