
Hive
Hive
得过且过1223
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive函数Demo3:排序函数
/* 数据集 孙悟空 语文 87 孙悟空 数学 95 孙悟空 英语 68 大海 语文 94 大海 数学 56 大海 英语 84 宋宋 语文 64 宋宋 数学 86 宋宋 英语 84 婷婷 语文 65 婷婷 数学 85 婷婷 英语 78 */ -- 创建表 create table score( name string, subject string, score int) row format delimited fields terminated by "\t"; --导入数据 load data原创 2020-08-07 23:01:00 · 163 阅读 · 0 评论 -
Hive函数之窗口(开窗)函数
官方介绍 LanguageManual WindowingAndAnalytics 一句话解释开窗作用 使用开窗函数可以在一个select语句中且不使用子查询的情况下,显示同一指标不同维度的数据。(这么说虽然片面,但是便于理解,实际开窗函数的作用远远超出该描述,具体请看下面案例理解) 开窗函数格式 格式:over(partition by 要分组字段**,order by** 要排序的字段 window_clause) 其中 partition by ,order by ,window_clause 均为可原创 2020-08-07 21:35:49 · 1075 阅读 · 0 评论 -
Hive函数Demo2:字符串拼接函数、炸裂函数、侧写、行专列、列转行
/* 相关函数 */ -- 拼接字符串,输入多个字符串 select concat('a','b','c'); -- 拼接字符串并指定分隔符 select concat_ws(',','a','b','c'); -- 炸裂函数 拆分数组为一行多列 map为2行多列 select explode(array('a','b','c')); -- 侧写 用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias -- 解释 用于和split, ex原创 2020-08-06 23:44:33 · 1001 阅读 · 0 评论 -
Hive函数Demo1:基础常用函数
-- 查看说明 desc function extended 函数名 /**/。 -- 返回时间戳 select unix_timestamp(); select unix_timestamp('2019-01-01 01:01:01'); select unix_timestamp('20190101 010101','yyyyMMdd HHmmss'); -- 时间戳转时间 select from_unixtime(1546304461,'yyyy-MM-dd HH:mm:ss'); -- 返回当原创 2020-08-06 19:48:26 · 166 阅读 · 0 评论 -
Hive自定义UDF&UDTF函数
pom.xml <properties> <project.build.sourceEncoding>UTF8</project.build.sourceEncoding> <hive.version>1.2.1</hive.version> </properties> <repositories> <repository>原创 2020-08-03 14:55:43 · 428 阅读 · 0 评论 -
hive安装Tez计算引擎
环境 CentOS 7 hive 1.2.1 apache-tez-0.9.1 安装步骤 上传taz到hdfs中 hadoop fs -mkdir /tez hadoop fs -put apache-tez-0.9.1-bin.tar.gz /tez 解压缩 tar -zxvf apache-tez-0.9.1-bin.tar.gz -C /opt 修改名称 mv /opt/apache-tez-0.9.1-bin /opt/tez-0.9.1 在hive/conf目录下创建tez-原创 2020-07-30 14:41:01 · 258 阅读 · 0 评论 -
Hive知识点:索引、分区表、分桶表、抽样查询
索引 在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量; 分区表 PARTITIONE BY 将表中的数据,分散到表目录下的多个子目录(分区目录)中 目的在执行查询时只查询某些子目录中的数据加快查询效率 导入数据时候需要指定向哪个分区导入数据 相当于在表中增加一列分区列 分区 使用 “列名=值” 的形式 已有数据 可通过自动修复分区 分桶表 CLUSTERED BY 和MR中分区是一个概念,把数据分散到多个文件中 分桶原创 2020-07-15 20:31:34 · 527 阅读 · 0 评论 -
Hive 练习题
hive 蚂蚁森林 https://blog.youkuaiyun.com/qq_34264067/article/details/103157266原创 2020-07-14 15:51:55 · 164 阅读 · 0 评论 -
Hive 搭建
搭建环境 Getting Started Guide Requirements Java 1.7 Note: Hive versions 1.2 onward require Java 1.7 or newer. Hive versions 0.14 to 1.1 work with Java 1.6 as well. Users are strongly advised to start m...原创 2020-02-12 10:03:32 · 223 阅读 · 0 评论 -
Hive 函数总结
1.内置运算符 1.1关系运算符 运算符 类型 说明 A = B 所原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。 A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。 A < B 所有原始...原创 2020-02-11 20:35:29 · 128 阅读 · 0 评论