那一抹星空-优快云博客

原创 java Dataset＜Row＞ groupByKey mapGroups分组

【代码】java Dataset＜Row＞ groupByKey mapGroups分组。

2025-11-26 15:28:45 263

原创 java Iterable＜JSONObject＞去重

【代码】【无标题】

2025-11-14 16:59:57 241

原创 Spark Core实现group by avg效果

3. 分区间合并函数（combOp）：(acc1, acc2) => (acc1._1 + acc2._1, acc1._2 + acc2._2)。将不同分区的同一个键的累加器合并，即总和相加，计数相加。2. 分区内合并函数（seqOp）：(acc, value) => (acc._1 + value, acc._2 + 1)。• 对于大数据量，推荐使用aggregateByKey或combineByKey，因为它们可以在map端（每个分区内）进行预聚合，减少shuffle的数据量，提高性能。

2025-06-05 18:48:53 446

原创 Flink程序SimpleDateFormat线程不安全

SimpleDateFormat 线程不安全，使用 joda-time 实现的DateTime工具类参考链接：https://blog.youkuaiyun.com/lingeio/article/details/1073079241.原因private val sdf1: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")private val sdf2: SimpleDateFormat = new SimpleDateFor

2022-03-30 14:30:17 1975

原创 flink按天分区实时写入hive表问题

flink按天分区实时写入hive表问题

2022-02-08 16:39:25 1763

原创 2021-02-23-java json和map互转保留null值的解决办法

1.json字符串转mapMap<String, Object> map= (Map<String, Object>) JSONUtils.parse(a);造成问题：java String index out of range: -2147483647解决方案：Map<String, Object> map = JSON.parseObject(a,Map.class);2.map转jsonString jsonStr = JSON.toJSONString(

2021-06-08 09:33:01 1132 1

原创 hive合并问题：The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions

hive合并数据出现：The maximum number of dynamic partitions is controlled by hive.exec.max.dynamic.partitions解决方案：https://www.cnblogs.com/dailidong/p/7571173.html

2021-05-02 22:02:13 674

原创 MapReduce On Yarn 任务

MapReduce On Yarn 任务遇到：FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因：yarn资源不足该错误是YARN的虚拟内存计算方式导致，上例中用户程序申请的内存为1Gb，YARN根据此值乘以一个比例（默认为2.1）得出申请的虚拟内存的值，当YARN计算的用户程序所需虚拟内存值大于计算出来的值时，就会报出以上错误。调节比例值可以解决该问题。具体参数为：ya

2021-04-23 18:30:09 174

原创 Java使用easyexcel解析excel文件

1.Java使用easyexcel 解析excel文件遇到的问题：File type error，io must be available markSupported,you can do like this <code> new BufferedInputStream(new FileInputStream(\"/xxxx\"))</code> "com.alibaba.excel.exception.ExcelAnalysisException: File type erro

2021-02-04 16:15:25 1963 2

原创 hive函数总结

hive函数总结1.时间函数（1）创建日期维度表WITH dates AS( SELECT DATE_SUB(DATE_ADD("${start_date}", a.pos),0) AS d FROM (SELECT POSEXPLODE(SPLIT(REPEAT("o", DATEDIFF("${end_date}", "${start_date}")), "o"))) a)select * from dates 参考：https://blog.youkuaiyun.com/

2021-01-14 12:21:01 358

原创 spark streaming消费kafka数据到redis redis连接池放在外面获取不到

spark streaming消费kafka数据到redis：redis连接池放在外面获取不到问题：将redis放到foreach或者map中，遇到问题redis.clients.jedis.exceptions.JedisConnectionException: Could not get a resource from the pool解决方案：使用广播变量，将redis连接池广播到executor端。streamingContext.sparkContext.broadcast(RedisUt

2021-01-14 12:19:37 313

qq_42937659的博客