
Hive
文章平均质量分 69
屡傻不改
这个作者很懒,什么都没留下…
展开
-
Hive笔记之collect_list/collect_set(列转行)
collect_list和collect_set它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录:create table t_visit_video ( username string, video_name string) partitioned by (day string)row format delimited fields terminated原创 2021-01-15 17:01:38 · 459 阅读 · 0 评论 -
Hadoop和Hive服务启动脚本
Hadoop 启动脚本执行脚本时需传入一个参数参数为:start、stop、restart、statusstart:启动 hadoop 所有服务stop:关闭 hadoop 所有服务restart:重启 hadoop 所有服务status:查看 hadoop 所有服务状态#!/bin/bash HADOOP_SBIN="/opt/hadoop/sbin"case $1 in start) $HADOOP_SBIN/start-dfs.sh原创 2020-12-15 10:19:21 · 267 阅读 · 0 评论 -
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask.
在MySQL创建完数据库hive后,在hive命令行中执行分区表加载数据是出现以下报错信息:原因:编码的问题,因为hive默认的是iso8859(latin1)解决方法:1、进入到MySQL中,删除之前所创建的hive库show databases;drop database hive;2、再新建hive库,并手动指定编码格式为latin1create database hiveuse hive#修改hive库的编码格式:alter database hive character se原创 2020-12-09 17:22:06 · 13251 阅读 · 1 评论 -
Column length too big for column ‘PARAM_VALUE‘ (max = 21845); use BLOB or TEXT instead
Hive创建表时报错:错误代码如下:解决方案:这是mysql编码格式的问题,进入mysql,输入这三条命令:show variables like "char%";use hive;alter database hive character set latin1;修改前:修改后:原创 2020-12-09 17:05:02 · 1077 阅读 · 0 评论 -
Hive可视化工具DBeaver
一、dbeaver下载安装网盘下载连接:https://pan.baidu.com/s/1IqYXOZ3z8j8z13KFuW4ZPg提取码:6jd9下载完成后解压安装即可二、连接hive1.打开虚拟机,并开启hadoop、hiveserver22.右击数据库导航栏---->新建连接选择 Apache Hive 后下一步3.首次连接需要编辑驱动,添加hive-hbase-handler-1.1.0-cdh5.14.2.jar#查找jar包:cd /opt/hive/lib将虚拟原创 2020-10-16 09:00:48 · 944 阅读 · 0 评论 -
zeppelin安装使用
Zepplin安装使用下载安装包上传并解压修改配置文件启动zeppelin配置hive解释器二级目录三级目录下载安装包下载网址:http://zeppelin.apache.org/download.html选择zeppelin-0.8.1-bin-all.tgz上传并解压上传到Linux的/software目录下解压至/opt/目录下cd /software/tar -zxvf zeppelin-0.8.1-bin-all.tgz -C /opt/进入目录并重命名为zeppelin原创 2020-09-22 09:48:37 · 232 阅读 · 0 评论 -
Hive安装配置
在hive目录下创建warehouse配置etc/profile原创 2020-09-14 14:06:10 · 171 阅读 · 0 评论 -
Hive函数及性能优化
Hive函数及性能优化Hive函数分类二级目录三级目录Hive函数分类从输入输出角度分类标准函数:一行数据中的一列或多列为输入,结果为单一值聚合函数:多行的零列到多列为输入,结果为单一值表生成函数:零个或多个输入,结果为多列或多行从实现方式分类1、内置函数2、自定义函数UDF:自定义标准函数UDAF:自定义聚合函数UDTF:自定义表生成函数二级目录三级目录...原创 2020-09-22 18:33:01 · 874 阅读 · 0 评论 -
Hive窗口函数
Hive窗口函数窗口函数概述排序聚合分析窗口定义窗口函数概述窗口函数是一组特殊函数扫描多个输入行来计算每个输出值,为每行数据生成一行结果可以通过窗口函数来实现复杂的计算和聚合语法function (arg1,..., arg n) over ([partition by <...>] [order by <....>] [<window_clause>])partition by类似于group by,未指定则按整个结果集只有指定gr原创 2020-09-19 17:10:32 · 336 阅读 · 0 评论 -
Hive聚合运算
Hive聚合运算Hive聚合运算GROUP BYHAVING基础聚合高级聚合Hive聚合运算GROUP BYgroup by用于分组Hive基本内置聚合函数与group by一起使用如果没有指定group by子句,则默认聚合整个表除聚合函数外,所选的其他列也必须包含在group by中group by支持使用case when或表达式支持按位置编号分组:set hive.groupby.orderby.position.alias=true;案例:#执行失败(原因:除聚合函数外,所原创 2020-09-19 16:16:59 · 1244 阅读 · 0 评论 -
Hive数据排序
Hive数据排序Hive数据排序order by(全局排序)sort by(分区内排序)/distribute bycluster by总结Hive数据排序order by(全局排序)order by (asc|desc)类似于标准SQL只使用一个Reducer执行全局数据排序速度慢,应提前做好数据过滤支持使用case when或表达式支持按位置编号排序set hive.groupby.orderby.position.alias=true;案例:select name,id,i原创 2020-09-19 15:45:25 · 373 阅读 · 0 评论 -
Hive操作
Hive数据库操作数据库(Database):表的集合,HDFS中表现为一个文件夹默认在hive.metastore.warehouse.dir属性目录下如果没有指定数据库,默认使用default数据库Hive数据库操作:同MySQL一样#启动hivehive#创建hivetest库create database hivetest;#查看数据库show database;#切换到hivetest数据库use hivetest;Hive表级操作数据表(Tables)原创 2020-09-16 16:45:52 · 167 阅读 · 0 评论 -
Apache Hive基础
Hive简介Hive概念1、基于Hadoop的数据仓库解决方案将结构化的数据文件映射为数据库表提供类sql的查询语言HQL(Hive Query Language)Hive让更多的人使用Hadoop2、Hive成为Apache顶级项目Hive始于2007年的Facebook官网:hive.apache.orgHive的优势和特点1、提供了一个简单的优化模型2、HQL类SQL语法,简化MR开发3、支持在不同的计算框架上运行4、支持在HDFS和HBase上临时查询数据5、支持用原创 2020-09-16 14:53:14 · 215 阅读 · 0 评论 -
Hive建表高阶语句、Hive视图
Hive建表高阶语句 - CTAS and WITHCTAS – as select方式建表 create table ctas_employee as select * from employee;注:CTAS不能创建partition, external, bucket tableCTE (CTAS with Common Table Expression)create table jobs_details as with tmp as (select jobs from emp原创 2020-09-17 16:45:10 · 3681 阅读 · 0 评论 -
Hive查询、Hive Join和Hive集合操作
Hive查询SELECT基础SELECT用于映射符合指定查询条件的行Hive SELECT是数据库标准SQL的子集使用方法类似于MySQL#查询顾客表中地区为“NY”所在城市为'New York'的用户select * from customers where customer_state="NY" and customer_city="New York";#查询订单表中共有多少不同顾客下过订单select count(distinct order_customer_id) from o原创 2020-09-17 17:29:29 · 502 阅读 · 0 评论 -
Hive装载数据、数据插入文件、数据交换
Hive装载数据、数据插入文件、数据交换装载数据load移动数据insert表插入数据Hive数据插入文件数据交换装载数据load移动数据load用于在Hive中移动数据原始数据被移动到目标表/分区,不再存在于原始位置local:指定文件位于本地文件系统overwrite:表示覆盖现有数据load data local inpath '/home/dayongd/Downloads/employee.txt' overwrite into table employee;#local表示原创 2020-09-19 15:20:35 · 492 阅读 · 0 评论