- 博客(11)
- 收藏
- 关注
原创 java Dataset<Row> groupByKey mapGroups分组
【代码】java Dataset<Row> groupByKey mapGroups分组。
2025-11-26 15:28:45
263
原创 Spark Core实现group by avg效果
3. 分区间合并函数(combOp):(acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2)。将不同分区的同一个键的累加器合并,即总和相加,计数相加。2. 分区内合并函数(seqOp):(acc, value) => (acc._1 + value, acc._2 + 1)。• 对于大数据量,推荐使用aggregateByKey或combineByKey,因为它们可以在map端(每个分区内)进行预聚合,减少shuffle的数据量,提高性能。
2025-06-05 18:48:53
446
原创 Flink程序SimpleDateFormat线程不安全
SimpleDateFormat 线程不安全,使用 joda-time 实现的DateTime工具类参考链接:https://blog.youkuaiyun.com/lingeio/article/details/1073079241.原因private val sdf1: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")private val sdf2: SimpleDateFormat = new SimpleDateFor
2022-03-30 14:30:17
1975
原创 2021-02-23-java json和map互转 保留null值的解决办法
1.json字符串转mapMap<String, Object> map= (Map<String, Object>) JSONUtils.parse(a);造成问题:java String index out of range: -2147483647解决方案:Map<String, Object> map = JSON.parseObject(a,Map.class);2.map转jsonString jsonStr = JSON.toJSONString(
2021-06-08 09:33:01
1132
1
原创 hive合并问题:The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions
hive合并数据出现:The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions解决方案:https://www.cnblogs.com/dailidong/p/7571173.html
2021-05-02 22:02:13
674
原创 MapReduce On Yarn 任务
MapReduce On Yarn 任务遇到:FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因:yarn资源不足该错误是YARN的虚拟内存计算方式导致,上例中用户程序申请的内存为1Gb,YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的值,当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误。调节比例值可以解决该问题。具体参数为:ya
2021-04-23 18:30:09
174
原创 Java使用easyexcel解析excel文件
1.Java使用easyexcel 解析excel文件遇到的问题:File type error,io must be available markSupported,you can do like this <code> new BufferedInputStream(new FileInputStream(\"/xxxx\"))</code> "com.alibaba.excel.exception.ExcelAnalysisException: File type erro
2021-02-04 16:15:25
1963
2
原创 hive函数总结
hive函数总结1.时间函数(1)创建日期维度表WITH dates AS( SELECT DATE_SUB(DATE_ADD("${start_date}", a.pos),0) AS d FROM (SELECT POSEXPLODE(SPLIT(REPEAT("o", DATEDIFF("${end_date}", "${start_date}")), "o"))) a)select * from dates 参考:https://blog.youkuaiyun.com/
2021-01-14 12:21:01
358
原创 spark streaming消费kafka数据到redis redis连接池放在外面获取不到
spark streaming消费kafka数据到redis:redis连接池放在外面获取不到问题:将redis放到foreach或者map中,遇到问题redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool解决方案:使用广播变量,将redis连接池广播到executor端。streamingContext.sparkContext.broadcast(RedisUt
2021-01-14 12:19:37
313
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅