
hive
文章平均质量分 59
叫我莫言鸭
这个作者很懒,什么都没留下…
展开
-
关于hive的时间戳
unix_timestamp()和 from_unixtime()的2个都是格林威治时间。如果时间戳为小数,是秒,为整数,则是毫秒, 所以如果放入整数秒,就需要*1000。from_unixtme 是可以进行自动时区转换的 (4.0新特性)4.0之前可以通过from_utc_timestamp进行查询。北京时间= 格林威治时间+8。原创 2023-10-10 21:04:48 · 466 阅读 · 0 评论 -
hive排序
mr中不指定reduce时默认是1,而hive会自动调节reduce数量,hive的切片是256,多少切片多少reduce.原创 2023-09-07 17:07:31 · 108 阅读 · 0 评论 -
数据仓库的流程
看事物的角度。原创 2023-09-04 21:30:20 · 796 阅读 · 0 评论 -
关于hiveonSpark的错误问题
关于Spark的配置。原创 2023-09-04 19:00:24 · 844 阅读 · 0 评论 -
Hive面试自学版
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据文件映射为一张表,同时可以将H-SQL语句转化为MapReduce程序在集群上运行。HiveServer2 提供远程访问服务客户通过访问HiveServer2这个中间件来访问Hadoop集群。原创 2023-08-23 20:29:27 · 132 阅读 · 0 评论 -
开窗积累之学习更新版
【代码】开窗积累之学习更新版。原创 2023-08-07 23:39:05 · 298 阅读 · 0 评论 -
HIVE语法优化之Join优化
这个数据不需要进入内存加载,直接在磁盘进行操作了,因为他是顺序读取,效率也很高,不需要加入内存读取来提高效率.桶用两表关联字段,MapJoin时需要将小表填入内存,这时候,分桶就起到了作用。m c 就是子任务 ,那么,子任务是map join么?一个stage阶段代表一个mr执行,好几个MR,会吧每一个MR的结果都压缩。job2:从缓存中读取小表数据,缓存在Map Task中,扫描大表.如果sql语句执行超过指定时间,定义该sql为慢查询,存储日志,如果达不到要求,就不继续聚合,然后最后的比例,聚合。原创 2023-08-06 17:37:10 · 898 阅读 · 0 评论 -
关于HIVE的分区与分桶
Hive中的分区就是把一张大表的数据按照业务需要分散的存储到多个目录,每个目录就称为该表的一个分区。在查询时通过where子句中的表达式选择查询所需要的分区,这样的查询效率会提高很多个人理解白话:按表中或者自定义的一个列,对数据进行了group by, 然后这时候,查询出的一行就是一个文件,或者说,分区列一行对应一个文件本质是MR中默认的分区操作,分桶字段就是MR中的key,分桶数就是MR中ReduceTask的数量。原创 2023-08-05 17:47:10 · 747 阅读 · 0 评论 -
HIVE学习
Hive是由Facebook开源,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。大白话: HIVE就是一个类似于Navicat的可视化客户端,原创 2023-08-05 14:52:51 · 677 阅读 · 0 评论