
Hive
文章平均质量分 69
qq_38151176
这个作者很懒,什么都没留下…
展开
-
mysql在线时长统计
很明显,这些数据时间上是有重叠的,例如user1在08:30~10:30这个时间段内用三个web端和一个app端登录,但他的时长应该只能算作2个小时要正确统计,我们需要三步:获取用户的重叠时间段中最早的起始时间获取用户的重叠时间段中最晚的结束时间前两步的起始时间与结束时间合并,得到综合的时间段,再进行统计第一步:查询用户名、起始时间其中起始时间需要满足的条件是:不包含于其它时间段,即不存在一条记录来满足条件“s>start且s<=end”得到的结果可能存在重复,所以用distin原创 2022-05-17 21:45:51 · 1035 阅读 · 0 评论 -
说下Hive 中join的运行原理
相关问题Hive里面的join分哪些类型呢?Hive的join的优化一般会怎么优化?除了mapjoin还知道别的么?Hive两个大表join的过程给出一个sql语句,让你结合语句来说明join过程。1 简单解释hive解析sql到mrok,首先Hive会根据DQL类SQL语句生成一个MapReduce作业。具体是通过Driver将SQL提交到编译器进行语法分析、解析和优化,最后生成一个MapReduce的执行计划,再根据执行计划,生成一个MapReduce作业。2 概况join的类型接着hiv原创 2022-05-09 15:11:32 · 214 阅读 · 0 评论 -
Hive面试
1.Hive row_number,rank两个函数的区别2.Hive窗口函数怎么设置窗口大小————————select city,year,taxes,sum(money) over() as sample1,–所有行相加sum(money) over(partition by city) as sample2,–按city分组,组内数据相加sum(money) over(partition by city order by year) as sample3,–按city分组,组内数据累加原创 2022-04-14 20:15:42 · 1607 阅读 · 0 评论 -
Hive_日期函数比较
1.日期比较函数: datediff语法: datediff(string enddate,string startdate)返回值: int说明: 返回结束日期减去开始日期的天数。举例:hive> select datediff(‘2016-12-30’,‘2016-12-29’);12.日期增加函数: date_add语法: date_add(string startdate, intdays)返回值: string说明: 返回开始日期startdate增加days天后的日期。举原创 2021-12-20 14:27:02 · 3050 阅读 · 0 评论 -
Hive_HQL
作为第一篇博客,本章主要记录hive相关知识点原创 2021-10-24 14:10:04 · 2993 阅读 · 0 评论 -
HIve基础概念
HIve基础概念1.1. hive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。原创 2021-11-14 19:59:26 · 1104 阅读 · 0 评论 -
HIve优化(包含数据倾斜)--单独从基础篇拿出来
6.Hive的优化(重要):6.1Map优化:1.如何合并小文件,减少map数set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat = trueset mapred.max.split.size = 10000000set mapred.min.split.size.per.node = 1000000set mapred.min.split.size.per.rack=1000000002.如何适当原创 2021-11-14 20:05:45 · 1036 阅读 · 0 评论