
大数据
文章平均质量分 69
大数据相关技术组件介绍与说明
幻影889
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Flink CDC 常用数据库字段类型映射
flink cdc 源数据类型映射。原创 2024-11-22 09:40:00 · 1165 阅读 · 0 评论 -
设置hive表生命周期并自动进行数据清理
数据生命周期管理,通常我们在写数仓设计时候,就对表进行规划,在命名规则上对于一些业务即可做一些标识要求,例如临时表增加"_tmp"的标识,另外在ETL开发过程中,也可以对分区数据做清理的要求,例如数据写入完成后,对临时表进行drop table操作,对历史N天前分区数据进行drop partition 的 操作。最后实现部分可以用脚本进行处理,也可以写个管理页面进行设置和定时清理的动作。原创 2024-01-08 11:28:28 · 3706 阅读 · 1 评论 -
Hive 的日志路径查看
修改配置可以在 /etc/hive/conf/下的hive-site.xml配置的hive.querylog.location,修改完毕后重启hive服务。修改配置可以在 /etc/hive/conf/下的hive-env.sh配置的hive.log.dir ,修改完毕后重启hive服务。进入hive shell 窗口,执行以下命令,将显示当前配置的系统日志属性值,默认为/var/log/hive。进入hive shell窗口,执行以下命令,将显示当前配置的属性值,默认为tmp/hive。原创 2024-01-03 15:25:46 · 2553 阅读 · 1 评论 -
hive的引擎mapreduce、tez和spark对比
Hive 的执行引擎包括以下几种:Hive 最早使用的执行引擎是基于 Hadoop MapReduce 的。它将 Hive 查询转化为一系列的 MapReduce 任务进行并行执行。MapReduce 引擎适用于处理大规模数据集,具有良好的容错性和扩展性,但由于磁盘读写和中间结果的持久化,可能在性能和响应时间方面受到影响。Hive 可以使用 Apache Tez 作为执行引擎来加速查询处理。原创 2023-12-20 11:39:47 · 3107 阅读 · 1 评论