- 博客(4)
- 收藏
- 关注
原创 大数据面试必问数据倾斜
两阶段聚合指的是先局部聚合再全局聚合。解决方案:通过参数hive.new.job.grouping.set.cardinality配置的方式自动控制作业的拆解,该参数默认值是30,表示针对grouping sets/rollups/cubes这类多维聚合的操作,如果最后拆解的键组合大于该值,会启用新的任务去处理大于该值之外的组合,某个分组聚合的列有较大的倾斜,可以适当调小该值。找到stage后,根据提示信息即可定位大致的问题,找到SQL问题位置,然后分析表的key值分布,表的大小,确定问题,进行程序优化。
2024-09-03 21:45:46
540
原创 世界杯数据分析(超详细 附源码)
在此期间,我们对spark、hadoop等大数据处理与分析框架的使用有了更进一步的理解,更加熟练地掌握hive数据仓库的管理与应用,能对SQL查询语句和hive查询语句更加熟练地运用。2、世界杯比赛比分汇总表:WorldCupMatches.csv包含了所有21届世界杯赛事(1930-2014)单场比赛的信息,包括比赛时间、比赛主客队、比赛进球数、比赛裁判等信息。包含了所有21届世界杯赛事(1930-2018)的比赛主办国、前四名队伍、总参赛队伍、总进球数、现场观众人数等汇。
2024-06-27 16:42:29
2238
原创 点点数据 js逆向(超详细)
天几天出了一个js逆向环境搭建的博文,因为涉及到pycharm专业版破解,审核不通过,敏感部分全部删掉了,官方给出的说法是涉及到大厂软件破解😀😀😀今天肝一个点点数据js逆向,后续网页结构可能更新,本博文只提供思路参考。
2024-05-17 15:52:27
2879
10
原创 js逆向环境搭建
我对JS逆向产生兴趣是因为我对爬虫浓厚的兴趣。我发现通过逆向工程,最近快实习了就业焦虑,想学点什么技术。并且找到了不错的js逆向视频资料,看了前几集就信心慢慢的打开了pycharm,开始惊心动魄的第一步,环境搭建。
2024-04-14 19:48:09
888
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人