
hive
文章平均质量分 61
小手追梦
技术致富
展开
-
HiveSQL:求累计访问量
数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8U02 2017/1/23 6U01 2017/2/22 4需求一:逐行求相同用户的累计访问次数原创 2021-12-29 19:34:03 · 1196 阅读 · 0 评论 -
排列组合理解SQL JOINS的几种情况
一,JOIN的三种方式1,left join2,right join3,full join二,Join的结果两个集合的join可能出现多少中结果呢?利用数学里的排列组合知识很容易算出来,如上图,join相当于把两个集合分为三个部分:左边集合独有部分右边集合独有部分两边集合公有部分利用排列组合的知识,可以将结果简化为这三部分的排列组合,也即结果中这三个部分存在与否,每个部分有两种情况,于是排列组合的结果是:2 * 2 * 2 = 8但是从图上只能看见7中结果,原因是,有一种情.原创 2021-12-28 06:28:44 · 499 阅读 · 0 评论 -
HiveSql经典面试题解析-统计两个人的通话时长
数据,数据有三列:呼叫人、接听人、通话时长,由一个空格分割。goudan haoge 01:01:01goudan mazi 00:11:21goudan laowang 00:19:01goudan Jingba 00:21:01goudan weige 01:31:17haoge mazi 00:51:01haoge mazi 01:11:19haoge laowang 00:00:21haoge laowang 00:23:01laowang mazi 01:18:01laow原创 2021-12-27 12:03:53 · 1326 阅读 · 0 评论 -
Hive导入导出数据方式总结
一,导入数据1,load1.1 从本地磁盘导入:load data local inpath ‘/localpath’ into table table1;1.2 从HDFS导入(无关键字local):load data inpath ‘/localpath’ into table table1;2,insert into … selectinsert into table1 select id,name from table2;3,create … as selectcreate原创 2021-12-24 07:22:51 · 1299 阅读 · 0 评论 -
Hive启停脚本
#!/bin/bash HIVE_LOG_DIR=$HIVE_HOME/logs if [ ! -d $HIVE_LOG_DIR ] then mkdir -p $HIVE_LOG_DIRfi#检查进程是否运行正常,参数 1 为进程名,参数 2 为进程端口function check_process() { pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}') ppid=$(ne原创 2021-12-23 21:34:32 · 317 阅读 · 0 评论 -
hive排序-order by / sort by / distribute by / cluster by
1,Order By-全局排序全局排序,只能有一个reduce。1.1、使用 ORDER BY 子句排序ASC(ascend): 升序(默认)DESC(descend): 降序1.2、ORDER BY 子句在SELECT语句的结尾1.3、demo#查询学生的成绩,并按照分数降序排列SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score DESC;#按照分数的平均值排序se原创 2021-05-24 08:17:47 · 292 阅读 · 0 评论 -
hadoop查看fsimage
一,使用hdfs命令获取FsImage数据文件hdfs dfsadmin -fetchImage ./tmp_meta注意,这是本地文件系统二,执行命令解析fsimage文件hdfs oiv -i ../tmp_meta/fsimage_0000000000000023025 -o ../tmp_meta_rec/fs.csv -p Delimited然后可以下载到windows中,用excel打开。...原创 2021-05-21 20:40:57 · 794 阅读 · 0 评论 -
hive执行时map任务数的确定
首先,Hadoop中在计算一个JOB需要的map数之前首先要计算分片的大小。计算分片大小的公式是:goalSize = totalSize / mapred.map.tasksminSize = max {mapred.min.split.size, minSplitSize}splitSize = max (minSize, min(goalSize, dfs.block.size))totalSize是一个JOB的所有map总的输入大小,即Map input bytes。参数mapr原创 2021-05-21 16:50:09 · 1572 阅读 · 1 评论 -
hive解决数据倾斜之寻找大key
执行hive sql时,如果某个reduce任务特别慢,很可能是出现了数据倾斜。如何查找数据倾斜?第一步,在hive日志里找到当前job的日志第二步打开日志第三步,点击上图红色部分,进入明细界面。第四步,进入reduce的统计界面发现有一个任务的执行时间特别长。第五步,进入这个任务的明细界面第六步,查看这个任务的日志可以搜一下关键字key,发现key为1...原创 2021-05-21 14:24:11 · 1628 阅读 · 1 评论 -
hive三种元数据存储方式
hive本身不存储数据,借助hdfs存储数据,hive和关系型数据库一样是有表结构的,这些信息hive也存储在第三方软件中,如derby、mysql。根据元数据的存储方式,hive的部署可以分为三种:一,local模式采用内置的derby数据库存储元数据,这种方式只能有一个客户端访问hive,多个客户访问会报错,适合开发测试。配置hive-site.xml:<property> <name>javax.jdo.option.ConnectionURL</name&原创 2021-05-20 21:14:36 · 4282 阅读 · 4 评论 -
HIVE的错题本
一, 初始化元数据出错使用derby作为元数据库,初始化时失败。/export/server/hive-2.1.0/bin/schematool -dbType derby -initSchema0: jdbc:derby:> CREATE FUNCTION "APP"."NUCLEUS_ASCII" (C CHAR(1)) RETURNS INTEGER LANGUAGE JAVA PARAMETER STYLE JAVA READS SQL DATA CALLED ON NULL INPU原创 2021-05-20 19:16:04 · 1003 阅读 · 0 评论 -
Hive简介和安装
1,Hive是基于hadoop的数据仓库解决方案,由facebook贡献给Apache。Hive出现的初衷是让不熟悉编程的数据分析人员也能够使用hadoop处理大数据,这是怎么实现的呢?2,我们先来看看Hive提供的接口,从下面Hive的架构图中可以很明显的看出来,Hive 提供了Hive shell,JDBC/ODBC,Web接口来使用和管理Hive数据仓库。Hive的shell原创 2014-12-12 11:00:41 · 1148 阅读 · 0 评论 -
Hive的数据类型
Hive支持的数据类型如下:原生类型:TINYINTSMALLINTINTBIGINTBOOLEANFLOATDOUBLESTRINGBINARY (Hive 0.8.0以上才可用)TIMESTAMP (Hive 0.8.0以上才可用)复合类型:arrays: ARRAYmaps: MAPstructs: STRUCTunion: UNIONTYPE我没有从数据类型本身原创 2014-12-13 15:06:02 · 556 阅读 · 0 评论 -
Hive分区、分桶操作及其比较
1,Hive分区。 是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。原创 2014-12-13 17:39:29 · 28101 阅读 · 3 评论 -
Hive 用户自定义函数UDF详解
本例自定义一个Hive UDF函数,功能是将从Hive数据仓库查询出来的字符串进行大小写转换。第一步,创建java工程,添加jar包。 Ø导入Hive的lib目录下的jar包以及hadoop安装目录下的hadoop-core.jar第二步,新建package包,包中新建java类,该类一定要继承org.apache.hadoop.hive.ql原创 2014-12-14 10:09:21 · 8645 阅读 · 0 评论