
hive
Z_Data
大学计算机专业老师一枚,高级开发工程师,专注大数据相关技术分享,实战项目开发。
展开
-
Hive入门 ------ Hive是什么,产生背景
一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。 由Facebook开源,最初用于解决海量结构化的日志数据统计问题 MapReduce编程的不便性 HDFS上的文件缺少Schema(字段名,字段类型等)...原创 2018-11-11 17:33:44 · 2078 阅读 · 0 评论 -
Hive --------- hive补充知识
补充:对于“正则表达式”和“解析json”、”解析xml”需要大家自己学习掌握好这些知识点。 自定义函数类别UDF 作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)UDAF(用户定义聚集函数):接收多个输入数据行,并产生一个输出数据行。(count,max) UDF开发实例 0、先导入相应的jar包 (位置 当天资料里面software/l...原创 2018-11-13 09:35:39 · 308 阅读 · 0 评论 -
hive ---- hive常见查询语句练习(有一定难度的)
练习题和sql语句基础sql语句统计每个学生的总分。统计出学号和总分 select s_id , sum(s_score) as zf from score group by s_id上表结果和stuent做join连接select stu.s_name,zf.ss from(select s_id , sum(s_score) as ss from s...原创 2018-11-12 20:43:14 · 2887 阅读 · 0 评论 -
Hive -------- 使用mysql保存hive元数据,Mysql的安装以及配置步骤
3.8 虚拟列虚拟列本身是一个不存在列,在数据查询的时候,可以通过虚拟列去查询数据的的路径,以及数据的偏移量,这两个内容都是hive中为用户提供的虚拟列进行的查询虚拟列存在两种:INPUT__FILE__NAME 代表数据的文件保存路径范例: 通过查询虚拟列得到文件保存路径select ename ,INPUT__FILE__NAME from emp;SMITH h...原创 2018-11-12 20:10:53 · 1660 阅读 · 0 评论 -
Hive --------- hive 的优化
1、表的优化在表的优化中第一点:当数据量比较大的时候常用的手段就是拆分比表,大表拆小表,分区表,临时表,外部表小表和大表join,要把数据量小的表放在join的左边,先进行缓存,这样减少表join的时候可以减少内存的消耗量 2、数据倾斜数据倾斜产生的原因为分区之后某一个reduce运算的数量比较小,而某一个reduce的数量比较大的时候,造成两个reduce处理数据不平等合...原创 2018-11-12 20:08:51 · 333 阅读 · 0 评论 -
大数据学习 ------- Hbase的基本概念
首先在了解hbase之前需要进行一个区分,主要hive和hbase的区别? hive是数据仓库的工具,hive不是真正保存数据的。而对hdfs上的数据进行了映射。而hbase 是一个数据库 数据是由hbase来进行保存的 hive的主要目的是为了分析数据, hbase的目的是保存海量的数据 Hbase的来源:之前在讲解hadoop的时候 hadoop的诞生源自于谷...原创 2018-11-14 16:24:53 · 338 阅读 · 0 评论 -
CentOS安装rpm安装MySQL时爆出警告
CentOS安装rpm安装MySQL时爆出警告:warning: MySQL-server-5.5.47-1.linux2.6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 5072e1f5: NOKEY原因:这是由于yum安装了旧版本的GPG keys造成的解决办法:后面加上 --force --nodepsrpm -ivh ...原创 2018-11-12 15:08:11 · 536 阅读 · 0 评论 -
Hive 中的四种排序 ---- 举例
1、Order by 可以指定desc 降序 asc 升序Order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。create table temperature( year int,temper float)row format delim...原创 2018-11-12 09:54:45 · 2327 阅读 · 0 评论 -
案例:使用hive与sqoop对网站指标进行分析
<网站分析数据可留言联系获取>需求分析: 首先对网站的日志进行分析,首先先分析两个指标就是pv 与uv 的分析,然后把分析出来的结果 导出到mysql 中进行保存 案例的实现: 首先需要把源数据加载到hive中,之后hive在对源数据创建临时表进行分析得出需要的指标最终把得到的结果通过sqoop导出到MySQL数据库 1 对于pv: 统计网页的浏览量2 U...原创 2018-11-14 09:35:18 · 394 阅读 · 0 评论 -
hive ---- hive常见查询语句练习(有一定难度的)
有一定难度的sql语句-- 1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数 思路:关键步骤:select * from score l join score r on (l.s_id = r.s_id and l.c_id=2 and r.c_id=1); select a.* ,b.s_score as 01_score,c.s_sc...原创 2018-11-13 09:35:29 · 2259 阅读 · 0 评论 -
Hive ------- hive常用函数参考
函数分类HIVE CLI命令显示当前会话有多少函数可用 SHOW FUNCTIONS;显示函数的描述信息 DESC FUNCTION concat;显示函数的扩展描述信息 DESC FUNCTION EXTENDED concat;简单函数函数的计算粒度为单条记录。 关系运算 数学运算 逻辑运算 数值计算 类型转换 日期函数 条件函数 字符串函数 统计函数聚合函...原创 2018-11-12 09:17:52 · 440 阅读 · 0 评论 -
Hive ----------- hive的基本命令
1.数据库的创建: 本质上是在hdfs上创建一个目录,使用comment加入数据库的描述信息,描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入,属性信息放在括号内,属性名和属性值放在引号里,用等号连接有多条属性用逗号分隔##创建一个数据库名为myhive,加入描述信息及属性信息create database myhive comment ...原创 2018-11-11 17:34:32 · 223 阅读 · 0 评论 -
Hive --------- hive的数据类型
目录 1.基本数据类型 2.复杂数据类型3.数据类型应用举例4.列的分割符1.基本数据类型 类型 描述 示例 TINYINT 1字节 有符号整数 1 SMALLINT 2字节 有符号整数 1 INT 4字节 有符号整数 1 BIGINT 8字节 有符号整数 1 FLOAT ...原创 2018-11-11 17:34:23 · 235 阅读 · 0 评论 -
Hive -------- Hive的远程安装模式
目录1.在min3上安装mysql数据库,可以使用yum安装或者上传安装包使用rpm命令安装2、选节点min1作为hive的服务端,hive-env.sh配置与前两种安装方式一样。以下为hive-site.xml的配置 3、选择服务器min2作为hive客户端,并将配置好的服务端的hive目录拷贝到该节点上4、启动多用户的hive:安装规划: 集群min1,min2,...原创 2018-11-11 17:34:13 · 302 阅读 · 0 评论 -
Hive的独立安装模式(使用MySql做元数据存储)
安装MySQL服务器端和MySQL客户端,并启动mysql服务。在min1上为Hive建立相应的MySQL账户,并赋予足够的权限create user 'hive' identified by '123456';GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY '123456' with grant option;GRANT ...原创 2018-11-11 17:33:53 · 301 阅读 · 0 评论 -
Hive的安装 ------ hive的单机安装(使用derby做元数据存储)
安装包准备将hive安装包 apache-hive-1.2.1-bin.tar.gz 上传到虚拟机/bigdata/下 JDK安装包 jdk-8u151-x64.gz 集群的准备(min1,min2,min3) hive的解压安装 将上传的hive解压缩至虚拟机/app目录下 tar -zxvf /app/apache-hive-1.2.1-bin.tar.g...原创 2018-11-11 17:34:04 · 416 阅读 · 0 评论 -
Hive -------- hive常见查询练习
表名和字段–1.学生表 Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别 –2.课程表 Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号 –3.教师表 Teacher(t_id,t_name) –教师编号,教师姓名 –4.成绩表 Score(s_id,c_id,s_score)...原创 2018-11-13 09:35:53 · 1540 阅读 · 0 评论