- 博客(9)
- 收藏
- 关注
原创 Hive总结
数据倾斜是由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点的现象。主要表现为:任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大于平均时长。
2024-10-04 20:37:53
981
原创 论数据开发对建模的理解
解决方案:拆,将只和某一个字段的列拆成另一张表存储,如该案例中,我们可以将性别和住址拆成学生表中,将学分拆成课程表中。这里我们不难发现,学生的性别住址和所选的课程并没有关系,而学分只和课程有关,跟学生没有关系,所以他们部分依赖于主键,那么我们应该怎么让这个表变得满足3NF中的唯一性呢?这里我们发现,在学生列中,可以拆分成三列,为姓名,性别,住址,所以并不满足3NF中的原子性。至此,我们成功解决了将一个不满足3NF的表转换成多个满足3NF的表,该过程为范式建模的思想。定义:非主键值不能依赖于另一个非主键值。
2024-09-24 14:17:00
668
原创 窗口函数中的范围规定
当窗口函数不使用order by的时候, 默认的作用范围为所有, 而使用order by且不自定义范围的时候, 默认为从头到当前行聚合, 那么如何规定窗口函数范围呢?
2024-09-18 16:23:53
441
原创 hive常用的窗口函数
首先, 在列举窗口函数之前, 我们需要知道, 什么是窗口函数, 这里只是谈一谈我的理解, 通俗的理解方式。先附上规范的定义:窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。再来说说我的理解:窗口函数格式: xxx解释: 在数据库查询中的select后使用, 在这后面再加一列。
2024-09-18 15:38:39
789
原创 Pyspark学习笔记
这里是我在学习Spark中的一些个人整理的笔记, 所以全文都只是我的个人理解,可能会出现错误,也有可能并不是那么的规范。这里并没有完全写完,因为这是我在学习的过程中写的,后续会不断的补充和修正。
2024-08-12 21:37:15
361
原创 关于使用pycharm运行spark出现JAVA_HOME is not set问题
这种方法虽然不需要任何配置, 但是每次写程序的时候都要去之前的程序中找到这么一大串代码贴到新的程序中, 想想都是比较折磨的, 这里问了问chatGPT, 又参考了网上的一些解决方案, 最终总结出第二种解决方案.未找到的问题就可以解决了, 可以按照个人需求来决定使用哪一种方案.
2024-08-10 15:07:33
612
2
原创 关于centOS系统yum下载失败的问题
2. 排查是否是因为网络不通才出现的问题,解决方案是访问百度, 如果不报错就进行之后的操作, 如果报错则配置网络。1. 确保使用root用户进行操作, 并打开resolv.conf添加DNS地址。至此, 在我平时的应用中关于yum下载问题就解决了。6. 测试yum是否能正常工作。4. 清理之前的yum缓存。3. 替换国内yum源。
2024-08-10 14:53:47
762
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人