大数据供成屎-优快云博客

原创 hive中行转列，列转行的各种情况及解决方法

行转列：一般用case when,再做一个group by 去掉0值。如果应用多行 lateral view explode则做笛卡尔积。列转行：union all。

2023-08-03 16:10:28 993

原创 IDEA插件之GsonFormat

将JSON数据快速生成对应的实体类 1.插件下载好之后，先创建一个类2.在该类内按alt+s，会弹出一个会话框 3.将json数据放入之后点击ok 4.选择要保留的变量 5.结果

2023-05-03 21:19:40 688

原创 Java对List集合sort排序

/ 先按照score的升序，然后按照height的升序。// 先按照score的升序，然后按照height的降序。// 先按照score的降序，然后按照height的降序。

2023-04-30 16:52:52 422

原创 Flink sql批处理进行同Hive操作

Flink sql批处理进行同Hive操作

2023-04-29 14:16:49 786 1

原创 Flink流转表遇到的错误！

Data.execute().print();

2023-04-27 23:20:19 192

当要JOIN的表数据量比较大时，可以选择Shuffle Hash Join。这样可以将大表进行按照JOIN的key进行重分区，保证每个相同的JOIN key都发送到同一个分区中。Shuffle Hash Join的基本步骤主要有以下两点：首先，对于两张参与JOIN的表，分别按照join key进行重分区，该过程会涉及Shuffle，其目的是将相同join key的数据发送到同一个分区，方便分区内进行join。

2023-02-14 18:48:10 842

原创 Spark内存溢出原因以及解决方式

Spark内存溢出原因以及解决方式。

2022-12-20 15:13:06 1496

原创 pyspark精简笔记

pyspark精简笔记

2022-12-19 22:14:19 172

原创 python精简笔记

python精简自学笔记

2022-12-05 21:38:11 287

原创 scala字符串trim，split，mkstring的一次错误记录

scala字符串切割合并的一次犯错记录

2022-11-10 22:11:29 288

原创 Flink实例：状态管理State 过期时间TTL

一旦设置了 TTL，那么如果上次访问的时间戳 + TTL 超过了当前时间，则表明状态过期了（这是一个简化的说法，严谨的定义请参考org.apache.flink.runtime.state.ttl.TtlUtils类中关于 expired 的实现）。对于 RocksDB 的状态清理，则是通过 JNI 来调用 C++ 语言编写的 FlinkCompactionFilter 来实现，底层是通过 RocksDB 提供的后台 Compaction 操作来实现对失效状态过滤的。如果启用，则每次状态访问都将触发它。..

2022-08-29 20:49:18 3618

原创 HIve汇总

hive

2022-08-29 19:54:12 600 1

原创精选Flink面试题

精选Flink面试题

2022-08-23 18:16:29 931

原创 Flink CEP 匹配后跳过策略

flink匹配后跳过策略

2022-08-10 10:03:05 478

原创 hive复杂类型数据详解—array,map,struct

hive复杂类型数据详解—array,map,struct

2022-07-28 23:00:34 1866

原创 Spark中map、mappartition、foreach 以及 foreachpartition的区别和对比

foreach用于遍历集合，而map用于映射（转换）集合到另一个集合。

2022-07-25 09:11:01 2244

原创 kafka 偏移量latest、earliest

按照栗子来说就是之前订过1月份的报纸（存在offset记录）然后设置earliest此时是不管用的，报社还是会给你发1月之后的报纸（不会从头消费），而如果你是一个新用户（不存在offset）当你订阅报纸并设置earliest此时报社才会从头开始发送所有的报纸。按照栗子来说就是之前订过1月份的报纸（存在offset记录）然后设置latest，报社会给你发1月之后的报纸，而如果你是一个新用户（不存在offset）当你订阅报纸并设置latest此时报社会发送最新的报纸。......

2022-07-21 09:50:43 1100

原创 kakfa中key的介绍

如果数据输入时指定了key，那么分区时可能会和key有关，并且key中的值就是给定的数据，一般是元数据，或者你需要的数据放在其中方便后续使用。如果没有指定分区和key，分区规则就是粘性分区，此时存储的key中是没有任何值的，即为空，也就没有任何作用，只是为固定的kv对做了搭配而已。...

2022-07-16 16:44:19 182

原创 ES面试题总结

elasticsearch es 的集群架构，索引数据大小，分片有多少，以及一些调优手段。

2022-07-14 15:03:57 650

原创 Redis常见面试题

Redis 常见面试题（带答案）110道

2022-07-14 11:13:36 201

原创 HBase面试总结

hbase概述hbase是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力...

2022-07-14 11:06:37 454

原创 Hive On Spark优化

hive on spark

2022-07-08 17:01:57 964

原创 hive数据倾斜问题

数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜，map端倾斜主要是因为输入文件大小不均匀导致，reduce端主要是partition不均匀导致。

2022-06-29 21:19:01 1327

lbg20211023的博客