
Hive
Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。
zhaoxiaoba123
这个作者很懒,什么都没留下…
展开
-
hive实战之视屏观看排名案例
需求:--统计视频观看数 Top10--统计视频类别热度 Top10--统计视频观看数 Top20 所属类别以及类别包含的 Top20 的视频个数--统计视频观看数 Top50 所关联视频的所属类别 Rank--统计每个类别中的视频热度 Top10--统计每个类别中视频流量 Top10--统计上传视频最多的用户 Top10 以及他们上传的观看次数在前 20 视频 --统计每个类别视频观看数 Top10数据结构:视屏表:video_orc用户表:user_orc原创 2020-09-09 22:27:13 · 255 阅读 · 0 评论 -
Hive 行转列and列转行
相关函数说明CONCAT(string A/col, string B/col...):返回输入字符串连接后的结果,支持任意个输入 字符串;CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩 余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL, 返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔 符将被加到被连接的字符串之间;COLLECT_SET(col):函数只原创 2020-09-02 12:38:48 · 149 阅读 · 0 评论 -
Hive基本查询
全表查询select * from emp;选择特定列查询select empno, ename from emp;注意:(1)SQL 语言大小写不敏感(2)SQL 可以写在一行或者多行(3)关键字不能被缩写也不能分行(4)各子句一般要分行写(5)使用缩进提高语句的可读性列别名: 重命名一个列、便于计算、紧跟列名,也可以在列名和别名之间加入关键字‘AS’案例:select ename AS name, deptno dn from emp;算术运算符..原创 2020-09-02 12:24:01 · 1595 阅读 · 0 评论 -
Hive DML数据操作
数据导入向表中装载数据(Load)语法:load data [local] inpath '/opt/module/datas/student.txt' [overwrite] | into table student[partition (partcol1=val1,...)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表 (3)inpath:表示加载数据的路径 (4)overwrite:表示覆原创 2020-09-02 00:09:53 · 106 阅读 · 0 评论 -
Hive分区表
分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区 所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的 数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查 询效率会提高很多。创建分区表语法查询分区表中数据增加分区删除分区同时删除多个分区查看分区表有多少分区查看分区表结构创建二级分区表加载数据到二级分区表中查询分区数据把数据直原创 2020-09-01 23:45:36 · 380 阅读 · 0 评论 -
Hive创建表
建表语法字段解释说明(1)CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IFNOTEXISTS 选项来忽略这个异常。(2)EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际 数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径,若创建外部表仅记录数据所在的路径不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据不删除数据。(3原创 2020-09-01 20:10:30 · 4912 阅读 · 0 评论 -
DDL数据定义
创建数据库创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法)创建一个数据库,指定数据库在 HDFS 上存放的位置查询数据库显示数据库:show databases;过滤显示查询的数据库显示数据库信息显示数据库详细信息,extended切换当前数据库修改数据库用户可以使用 ALTER..原创 2020-09-01 15:49:27 · 217 阅读 · 0 评论 -
Hive数据类型
对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不 过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合, 复杂数据类型允许任意层次的嵌套。案例实操:假设某表有如下一行,我们用 JSON 格式来...原创 2020-09-01 15:26:07 · 169 阅读 · 0 评论 -
Hive 其他命令操作及常见属性配置
1.在 hive cli 命令窗口中如何查看 hdfs 文件系统hive> dfs -ls /;2.在 hive cli 命令窗口中如何查看本地文件系统hive> ! ls /opt/module/datas;3.查看在 hive 中输入的所有历史命令进入到当前用户的根目录/root 或/home/atguigu查看. hivehistory 文件[atguigu@hadoop102 ~]$ cat .hivehistoryHive 数据仓库位置配置Default 数据.原创 2020-09-01 15:05:05 · 191 阅读 · 0 评论 -
HiveJDBC 访问
启动 hiveserver2 服务[atguigu@hadoop102 hive]$ bin/hiveserver2启动 beeline[atguigu@hadoop102 hive]$ bin/beelineBeeline version 1.2.1 by Apache Hive beeline>连接 hiveserver2beeline> !connect jdbc:hive2://hadoop102:10000(回车)Connecting to jdbc:hive2://ha原创 2020-09-01 14:59:46 · 325 阅读 · 0 评论 -
Hive之元数据管理MySQL
安装包准备1.查看 mysql 是否安装,如果安装了,卸载 mysql(2)卸载rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_642.解压 mysql-libs.zip 文件到当前目录[root@hadoop102 software]# unzip mysql-libs.zip[root@hadoop102 software]# lsmysql-libs.zipmysql-libs3、进入到 mysql-libs 文件夹下[roo原创 2020-09-01 14:53:35 · 447 阅读 · 0 评论 -
将本地数据倒入到Hive
将本地/opt/module/data/student.txt 这个目录下的数据导入到 hive 的 student(id int, name string)表中。1.数据准备在/opt/module/data 这个目录下准备数据mkdir data在/opt/module/datas/目录下创建 student.txt 文件并添加数据touch student.txt 注意以 tab 键间隔vi student.txt1001 zhangshan1002 lishi..原创 2020-09-01 14:34:37 · 1160 阅读 · 0 评论 -
Hive安装
Hive 安装地址Hive 官网地址 http://hive.apache.org/下载地址 http://archive.apache.org/dist/hive/Hive 安装部署Hive 安装及配置把 apache-hive-1.2.1-bin.tar.gz 上传到 linux 的/software 目录下解压 apache-hive-1.2.1-bin.tar.gz 到/app目录下面修改 apache-hive-1.2.1-bin.tar.gz 的名称为 hivemv原创 2020-09-01 11:17:01 · 154 阅读 · 0 评论 -
Hive基本概念
1、什么是HiveHive: 是由Facebook开源用于解决海量结构化日志的数据统计。Hive 是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类似SQL查询功能其本质是:将HQL转化成MapReduce程序2、Hive 处理的数据存储在HDFS3、Hive 分析数据底层的默认实现是MapReduce4、执行程序运行在Yarn上5、Hive 优点:采用SQL语法,提供快速开发能力、简单、容易上手、避免去写MapReduce、因为延迟较高.原创 2020-09-01 10:45:28 · 194 阅读 · 0 评论