幻影889-优快云博客

原创 Flink CDC 常用数据库字段类型映射

flink cdc 源数据类型映射。

2024-11-22 09:40:00 1375

当hudi表存在timestamp类型字段时，需指定此参数为true，以实现同步timestamp类型到hive元数据中。该值为false，默认将timestamp类型同步为bigInt，默认情况可能导致使用sql查询包含timestamp类型字段的hudi表出现错误。•true：从最近一次hive同步后所修改的分区直接向Hive表中做add partition if not exist操作。•jdbc：通过hive jdbc方式同步元数据。•hiveql：执行hive ql方式同步元数据。

2024-09-10 15:45:38 593

原创 Hudi常用参数-索引相关参数配置

存储在布隆过滤器中的条目数。此配置控制“存储桶”的大小（默认10000000），该大小可跟踪对单个文件进行的记录键检查的次数，并且是分配给执行布隆过滤器查找的每个分区的工作单位。默认为true时，当对一个已有记录执行包含分区路径的更新操作时，将会导致把新记录插入到新分区，而把原有记录从旧分区里删除。用户自定义索引的全路径名，索引类必须为HoodieIndex的子类，当指定该配置时，其会优先于hoodie.index.type配置。进行分桶时计算Hash值的字段，必须为主键的子集，默认为Hudi表的主键。

2024-08-27 14:36:18 1562 1

原创 Hudi常用参数-写入操作相关参数配置

hudi的写入相关配置

2024-08-27 14:32:05 927

原创 hive执行引擎区别

Hive 的执行引擎包括以下几种：MapReduce：Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集，具有良好的容错性和扩展性，但由于磁盘读写和中间结果的持久化，可能在性能和响应时间方面受到影响。Tez：Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。Tez 是一个用于高效执行大规模数据处理任务的执行框架。

2024-08-20 14:37:22 723

原创设置hive表生命周期并自动进行数据清理

数据生命周期管理，通常我们在写数仓设计时候，就对表进行规划，在命名规则上对于一些业务即可做一些标识要求，例如临时表增加"_tmp"的标识，另外在ETL开发过程中，也可以对分区数据做清理的要求，例如数据写入完成后，对临时表进行drop table操作，对历史N天前分区数据进行drop partition 的操作。最后实现部分可以用脚本进行处理，也可以写个管理页面进行设置和定时清理的动作。

2024-01-08 11:28:28 4053 2

原创 Hive 的日志路径查看

修改配置可以在 /etc/hive/conf/下的hive-site.xml配置的hive.querylog.location，修改完毕后重启hive服务。修改配置可以在 /etc/hive/conf/下的hive-env.sh配置的hive.log.dir ，修改完毕后重启hive服务。进入hive shell 窗口，执行以下命令，将显示当前配置的系统日志属性值，默认为/var/log/hive。进入hive shell窗口，执行以下命令，将显示当前配置的属性值，默认为tmp/hive。

2024-01-03 15:25:46 2667 1

原创 hive的引擎mapreduce、tez和spark对比

Hive 的执行引擎包括以下几种：Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集，具有良好的容错性和扩展性，但由于磁盘读写和中间结果的持久化，可能在性能和响应时间方面受到影响。Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。

2023-12-20 11:39:47 3386 2

weixin_61938673的博客