不会Hive的啊扬-优快云博客

原创 repartition和coalesce区别

spark中repartition和coalesce区别

2024-04-15 20:47:34 445

原创 Spark原理

spark任务划分，task，stage，分区与并行度

2024-02-05 15:51:58 407

原创 Flink中的时间和窗口

窗口、时间语义、水位线、双流Join

2023-12-07 20:12:27 1423

原创 Flink

flink的相关概念，任务槽，并行度，算子链合并，运行模式，提交流程，部署方式

2023-12-05 03:14:16 1154

原创 grouping sets和with cube以及array+explode做多维度聚合统计

1、如果汇总维度低于3个，且需要定制化，则用grouping sets，如果超过3个，则用array+explode2、如果汇总维度低于3个，且无需定制化，则用with cube，如果超过3个，则用array+explode

2023-11-16 01:22:33 260

原创 row_number结合case when选择性排序

row_number结合case when选择性排序，开窗函数花式用法，Partion by中使用case when

2023-11-16 00:29:55 1128

原创 Lag函数求环比缺陷与改进

Lag函数求环比缺陷与改进

2023-10-25 19:22:22 331

原创 hive中的sysdate到底是什么

hive中sysdate看似展现当前日期，类似current_date()，其实内部是完整时间戳，但他不可以当做current_timestamp去使用

2023-07-11 14:45:12 852

原创 date函数的在hive和mysql中的区别

1、在Hive中，截取日期尽量用substr，因为date只是展现形式和substr一致，并不是数据本身2、在mysql中，无所谓使用substr或date，效果完全一致

2023-06-20 18:04:25 278

原创大数据之Kerberos认证

Kerberos 是一个网络身份验证协议，用于在计算机网络中进行身份验证和授权。它提供了一种安全的方式，允许用户在不安全的网络上进行身份验证，并获取访问网络资源的权限。

2023-05-15 12:18:59 5866 1

原创一道题带你真正的理解if,where和on

一道题带你真正的理解if,where和on

2023-05-06 23:45:55 103

原创 join筛选条件位置不同的区别

本文将针对left join, inner join以及full join时筛选条件所在Join的前中后不同位置分别做剖析

2023-05-04 19:56:36 1082

原创牛客Shell面试题

牛客shell面试题，常见题

2023-04-26 18:39:32 142

原创 HIVE内表与外表的区别

hive内外表的区别，主要总结六点区别

2023-04-16 14:36:14 2373

原创 hive中trancelate和tranceform函数

trancelate用来替换字符串中的字符，而tranceform提供了在 SQL 中调用自写脚本的功能

2023-04-11 15:26:49 355

原创关系型数据库Mysql和Oracle的区别

简要概述oracle和mysql的区别，并且对truncate和delete，distinct和group by等的区别做出解释

2023-03-28 20:06:03 233

原创大厂sql面试题

大厂sql面试题，解题思路及注意点

2023-03-24 20:01:16 331

原创大数据分而治之（分桶表）的应用

关于大数据场景分而治之思想的一些实践方案，包括分桶表，distribute by+sort by以及row_number的一些特殊使用场景，以及什么时候该如何选择

2023-03-13 21:54:28 346

原创 Hive调优以及数据倾斜的处理

hive调优设置mr个数，小文件处理，压缩处理，以及数据倾斜的处理等

2023-03-10 11:35:59 312

原创 ods层如何保证和Mysql镜像一致

ods层合并逻辑保持和mysql端一致的方法，以及一些注意事项与相关问题

2023-03-08 20:19:38 373

原创数仓任务的日常问题和报错解决

离线数仓工作中的一些常见报错，内存溢出，任务数量过多，多表join后缺数据等

2023-03-08 03:26:00 627

原创关于Hive的一些零碎知识

关于hive的一些特殊方法，冷知识，以及一些注意事项

2023-03-07 19:49:43 249

原创 DS调度流程改进设计

DS调度任务流程规划，如何最大程度利用资源，如何合理定时，控制内存

2023-03-05 22:08:42 436

原创 shell脚本实现多张表合并成一张分区表

如何快速的将普通表数据使用shell脚本导入分区表

2023-03-05 20:07:48 404

原创关于msck是否可以删除分区

msck命令在大多数版本中是不支持drop分区的，只支持add

2023-03-05 19:39:29 278

原创常用正则表达式

关于正则表达式的一些常见用法，以及在hive和程序中的一些使用示例

2023-03-03 22:10:57 196

原创 MapReduce参数调优

设置Map，reduce参数调优其个数，以及如何保证输出端的小文件合并等问题

2023-03-02 21:53:33 2392

原创 Hive和Spark对分区字段的处理区别

读parquet文件时对于分区字段的处理，hive不会在意文件中是否有分区字段，而spark的read.parquet方法则不相同

2023-03-02 21:20:51 982

原创用shell脚本自动监测Kafka积压

采用两个脚本和一张hive表解决kafka数据积压而造成的影响数据合并准确性问题

2023-03-02 19:13:26 2437 2

m0_70949976的博客