- 博客(24)
- 资源 (1)
- 收藏
- 关注
原创 hive中行转列,列转行的各种情况及解决方法
行转列:一般用case when,再做一个group by 去掉0值。如果应用多行 lateral view explode则做笛卡尔积。列转行:union all。
2023-08-03 16:10:28
916
原创 IDEA插件之GsonFormat
将JSON数据快速生成对应的实体类 1.插件下载好之后 ,先创建一个类2.在该类内按alt+s,会弹出一个会话框 3.将json数据放入之后点击ok 4.选择要保留的变量 5.结果
2023-05-03 21:19:40
656
原创 Java对List集合sort排序
/ 先按照score的升序,然后按照height的升序。// 先按照score的升序,然后按照height的降序。// 先按照score的降序,然后按照height的降序。
2023-04-30 16:52:52
402
原创 Spark中JOIN执行的5种策略
当要JOIN的表数据量比较大时,可以选择Shuffle Hash Join。这样可以将大表进行按照JOIN的key进行重分区,保证每个相同的JOIN key都发送到同一个分区中。Shuffle Hash Join的基本步骤主要有以下两点:首先,对于两张参与JOIN的表,分别按照join key进行重分区,该过程会涉及Shuffle,其目的是将相同join key的数据发送到同一个分区,方便分区内进行join。
2023-02-14 18:48:10
792
原创 Flink实例:状态管理State 过期时间TTL
一旦设置了 TTL,那么如果上次访问的时间戳 + TTL 超过了当前时间,则表明状态过期了(这是一个简化的说法,严谨的定义请参考org.apache.flink.runtime.state.ttl.TtlUtils类中关于 expired 的实现)。对于 RocksDB 的状态清理,则是通过 JNI 来调用 C++ 语言编写的 FlinkCompactionFilter 来实现,底层是通过 RocksDB 提供的后台 Compaction 操作来实现对失效状态过滤的。如果启用,则每次状态访问都将触发它。..
2022-08-29 20:49:18
3476
原创 Spark中map、mappartition、foreach 以及 foreachpartition的区别和对比
foreach用于遍历集合,而map用于映射(转换)集合到另一个集合。
2022-07-25 09:11:01
2191
原创 kafka 偏移量latest、earliest
按照栗子来说就是之前订过1月份的报纸(存在offset记录)然后设置earliest此时是不管用的,报社还是会给你发1月之后的报纸(不会从头消费),而如果你是一个新用户(不存在offset)当你订阅报纸并设置earliest此时报社才会从头开始发送所有的报纸。按照栗子来说就是之前订过1月份的报纸(存在offset记录)然后设置latest,报社会给你发1月之后的报纸,而如果你是一个新用户(不存在offset)当你订阅报纸并设置latest此时报社会发送最新的报纸。......
2022-07-21 09:50:43
1047
原创 kakfa中key的介绍
如果数据输入时指定了key,那么分区时可能会和key有关,并且key中的值就是给定的数据,一般是元数据,或者你需要的数据放在其中方便后续使用。如果没有指定分区和key,分区规则就是粘性分区,此时存储的key中是没有任何值的,即为空,也就没有任何作用,只是为固定的kv对做了搭配而已。...
2022-07-16 16:44:19
165
原创 HBase面试总结
hbase概述hbase是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力...
2022-07-14 11:06:37
435
原创 hive数据倾斜问题
数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致。
2022-06-29 21:19:01
1308
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人