自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive中行转列,列转行的各种情况及解决方法

行转列:一般用case when,再做一个group by 去掉0值。如果应用多行 lateral view explode则做笛卡尔积。列转行:union all。

2023-08-03 16:10:28 916

原创 IDEA插件之GsonFormat

将JSON数据快速生成对应的实体类 1.插件下载好之后 ,先创建一个类2.在该类内按alt+s,会弹出一个会话框 3.将json数据放入之后点击ok 4.选择要保留的变量 5.结果

2023-05-03 21:19:40 656

原创 Java对List集合sort排序

/ 先按照score的升序,然后按照height的升序。// 先按照score的升序,然后按照height的降序。// 先按照score的降序,然后按照height的降序。

2023-04-30 16:52:52 402

原创 Flink sql批处理进行同Hive操作

Flink sql批处理进行同Hive操作

2023-04-29 14:16:49 743 1

原创 Flink流转表遇到的错误!

Data.execute().print();

2023-04-27 23:20:19 177

原创 Flink精简笔记

Flink精简笔记基础版

2023-03-17 21:28:03 186

原创 Spark中JOIN执行的5种策略

当要JOIN的表数据量比较大时,可以选择Shuffle Hash Join。这样可以将大表进行按照JOIN的key进行重分区,保证每个相同的JOIN key都发送到同一个分区中。Shuffle Hash Join的基本步骤主要有以下两点:首先,对于两张参与JOIN的表,分别按照join key进行重分区,该过程会涉及Shuffle,其目的是将相同join key的数据发送到同一个分区,方便分区内进行join。

2023-02-14 18:48:10 792

原创 Spark内存溢出原因以及解决方式

Spark内存溢出原因以及解决方式。

2022-12-20 15:13:06 1399

原创 pyspark精简笔记

pyspark精简笔记

2022-12-19 22:14:19 159

原创 python精简笔记

python精简自学笔记

2022-12-05 21:38:11 271

原创 scala字符串trim,split,mkstring的一次错误记录

scala字符串切割合并的一次犯错记录

2022-11-10 22:11:29 270

原创 Flink实例:状态管理State 过期时间TTL

一旦设置了 TTL,那么如果上次访问的时间戳 + TTL 超过了当前时间,则表明状态过期了(这是一个简化的说法,严谨的定义请参考org.apache.flink.runtime.state.ttl.TtlUtils类中关于 expired 的实现)。对于 RocksDB 的状态清理,则是通过 JNI 来调用 C++ 语言编写的 FlinkCompactionFilter 来实现,底层是通过 RocksDB 提供的后台 Compaction 操作来实现对失效状态过滤的。如果启用,则每次状态访问都将触发它。..

2022-08-29 20:49:18 3476

原创 HIve汇总

hive

2022-08-29 19:54:12 577 1

原创 精选Flink面试题

精选Flink面试题

2022-08-23 18:16:29 893

原创 Flink CEP 匹配后跳过策略

flink匹配后跳过策略

2022-08-10 10:03:05 431

原创 hive复杂类型数据详解—array,map,struct

hive复杂类型数据详解—array,map,struct

2022-07-28 23:00:34 1802

原创 Spark中map、mappartition、foreach 以及 foreachpartition的区别和对比

foreach用于遍历集合,而map用于映射(转换)集合到另一个集合。

2022-07-25 09:11:01 2191

原创 kafka 偏移量latest、earliest

按照栗子来说就是之前订过1月份的报纸(存在offset记录)然后设置earliest此时是不管用的,报社还是会给你发1月之后的报纸(不会从头消费),而如果你是一个新用户(不存在offset)当你订阅报纸并设置earliest此时报社才会从头开始发送所有的报纸。按照栗子来说就是之前订过1月份的报纸(存在offset记录)然后设置latest,报社会给你发1月之后的报纸,而如果你是一个新用户(不存在offset)当你订阅报纸并设置latest此时报社会发送最新的报纸。......

2022-07-21 09:50:43 1047

原创 kakfa中key的介绍

如果数据输入时指定了key,那么分区时可能会和key有关,并且key中的值就是给定的数据,一般是元数据,或者你需要的数据放在其中方便后续使用。如果没有指定分区和key,分区规则就是粘性分区,此时存储的key中是没有任何值的,即为空,也就没有任何作用,只是为固定的kv对做了搭配而已。...

2022-07-16 16:44:19 165

原创 ES面试题总结

elasticsearch es 的集群架构,索引数据大小,分片有多少,以及一些调优手段 。

2022-07-14 15:03:57 627

原创 Redis常见面试题

Redis 常见面试题(带答案)110道

2022-07-14 11:13:36 190

原创 HBase面试总结

hbase概述hbase是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力...

2022-07-14 11:06:37 435

原创 Hive On Spark优化

hive on spark

2022-07-08 17:01:57 923

原创 hive数据倾斜问题

数据倾斜是进行大数据计算时常见的问题。主要分为map端倾斜和reduce端倾斜,map端倾斜主要是因为输入文件大小不均匀导致,reduce端主要是partition不均匀导致。

2022-06-29 21:19:01 1308

大数据git初级总结和idea应用

大数据git初级总结和idea应用

2022-07-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除