- 博客(8)
- 收藏
- 关注
原创 Hudi常用参数-同步Hive表相关参数配置
当hudi表存在timestamp类型字段时,需指定此参数为true,以实现同步timestamp类型到hive元数据中。该值为false,默认将timestamp类型同步为bigInt,默认情况可能导致使用sql查询包含timestamp类型字段的hudi表出现错误。•true:从最近一次hive同步后所修改的分区直接向Hive表中做add partition if not exist操作。•jdbc:通过hive jdbc方式同步元数据。•hiveql:执行hive ql方式同步元数据。
2024-09-10 15:45:38
316
原创 Hudi常用参数-索引相关参数配置
存储在布隆过滤器中的条目数。此配置控制“存储桶”的大小(默认10000000),该大小可跟踪对单个文件进行的记录键检查的次数,并且是分配给执行布隆过滤器查找的每个分区的工作单位。默认为true时,当对一个已有记录执行包含分区路径的更新操作时,将会导致把新记录插入到新分区,而把原有记录从旧分区里删除。用户自定义索引的全路径名,索引类必须为HoodieIndex的子类,当指定该配置时,其会优先于hoodie.index.type配置。进行分桶时计算Hash值的字段,必须为主键的子集,默认为Hudi表的主键。
2024-08-27 14:36:18
1273
1
原创 hive执行引擎区别
Hive 的执行引擎包括以下几种:MapReduce:Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。Tez:Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。Tez 是一个用于高效执行大规模数据处理任务的执行框架。
2024-08-20 14:37:22
478
原创 设置hive表生命周期并自动进行数据清理
数据生命周期管理,通常我们在写数仓设计时候,就对表进行规划,在命名规则上对于一些业务即可做一些标识要求,例如临时表增加"_tmp"的标识,另外在ETL开发过程中,也可以对分区数据做清理的要求,例如数据写入完成后,对临时表进行drop table操作,对历史N天前分区数据进行drop partition 的 操作。最后实现部分可以用脚本进行处理,也可以写个管理页面进行设置和定时清理的动作。
2024-01-08 11:28:28
3115
1
原创 Hive 的日志路径查看
修改配置可以在 /etc/hive/conf/下的hive-site.xml配置的hive.querylog.location,修改完毕后重启hive服务。修改配置可以在 /etc/hive/conf/下的hive-env.sh配置的hive.log.dir ,修改完毕后重启hive服务。进入hive shell 窗口,执行以下命令,将显示当前配置的系统日志属性值,默认为/var/log/hive。进入hive shell窗口,执行以下命令,将显示当前配置的属性值,默认为tmp/hive。
2024-01-03 15:25:46
2371
1
原创 hive的引擎mapreduce、tez和spark对比
Hive 的执行引擎包括以下几种:Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。
2023-12-20 11:39:47
2682
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人