自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Flink CDC 常用数据库字段类型映射

flink cdc 源数据类型映射。

2024-11-22 09:40:00 998

原创 Hudi常用参数-同步Hive表相关参数配置

当hudi表存在timestamp类型字段时,需指定此参数为true,以实现同步timestamp类型到hive元数据中。该值为false,默认将timestamp类型同步为bigInt,默认情况可能导致使用sql查询包含timestamp类型字段的hudi表出现错误。•true:从最近一次hive同步后所修改的分区直接向Hive表中做add partition if not exist操作。•jdbc:通过hive jdbc方式同步元数据。•hiveql:执行hive ql方式同步元数据。

2024-09-10 15:45:38 316

原创 Hudi常用参数-索引相关参数配置

存储在布隆过滤器中的条目数。此配置控制“存储桶”的大小(默认10000000),该大小可跟踪对单个文件进行的记录键检查的次数,并且是分配给执行布隆过滤器查找的每个分区的工作单位。默认为true时,当对一个已有记录执行包含分区路径的更新操作时,将会导致把新记录插入到新分区,而把原有记录从旧分区里删除。用户自定义索引的全路径名,索引类必须为HoodieIndex的子类,当指定该配置时,其会优先于hoodie.index.type配置。进行分桶时计算Hash值的字段,必须为主键的子集,默认为Hudi表的主键。

2024-08-27 14:36:18 1273 1

原创 Hudi常用参数-写入操作相关参数配置

hudi的写入相关配置

2024-08-27 14:32:05 639

原创 hive执行引擎区别

Hive 的执行引擎包括以下几种:MapReduce:Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。Tez:Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。Tez 是一个用于高效执行大规模数据处理任务的执行框架。

2024-08-20 14:37:22 478

原创 设置hive表生命周期并自动进行数据清理

数据生命周期管理,通常我们在写数仓设计时候,就对表进行规划,在命名规则上对于一些业务即可做一些标识要求,例如临时表增加"_tmp"的标识,另外在ETL开发过程中,也可以对分区数据做清理的要求,例如数据写入完成后,对临时表进行drop table操作,对历史N天前分区数据进行drop partition 的 操作。最后实现部分可以用脚本进行处理,也可以写个管理页面进行设置和定时清理的动作。

2024-01-08 11:28:28 3115 1

原创 Hive 的日志路径查看

修改配置可以在 /etc/hive/conf/下的hive-site.xml配置的hive.querylog.location,修改完毕后重启hive服务。修改配置可以在 /etc/hive/conf/下的hive-env.sh配置的hive.log.dir ,修改完毕后重启hive服务。进入hive shell 窗口,执行以下命令,将显示当前配置的系统日志属性值,默认为/var/log/hive。进入hive shell窗口,执行以下命令,将显示当前配置的属性值,默认为tmp/hive。

2024-01-03 15:25:46 2371 1

原创 hive的引擎mapreduce、tez和spark对比

Hive 的执行引擎包括以下几种:Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。

2023-12-20 11:39:47 2682 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除