
hive
Smile to everyday
这个作者很懒,什么都没留下…
展开
-
sqoop数据导入hive及到处到mysql
条件准备复制jar包到sqoop的lib目录下#复制hive的jar包cp /opt/software/hive110/lib/hive-common-1.1.0-cdh5.14.2.jar /opt/software/sqoop146/libcp /opt/software/hive110/lib/hive-shims* /opt/software/sqoop146/libmysql数据导入hivesqoop import \--connect jdbc:mysql://localhost原创 2021-03-12 11:36:20 · 239 阅读 · 0 评论 -
dolphinscheduler调度hive
找到dolphinscheduler的lib目录,移除hive*.jar原因: 可能hive的jar包与你自己安装的jar包不同,这时需要将你自己的hive下相应的jar包放入进来。操作命令cd /opt/dolphinscheduler/lib/mv hive* /tmp 这里最好是移动到tmp目录下,不要删除,删除也没关系将自己安装的hive下的lib目录下的jar包复制到dolphinscheduler的lib目录下需要复制的jar包,对应的命令(目录有变化自行修改)cp /o原创 2021-03-11 14:59:25 · 2787 阅读 · 3 评论 -
hive分布式搭建【带有hive配套博客的安装包,在hive单节点演示链接中】
hive分布式搭建首先hive单机搭建注: 现在master机器上搭建,并初始化生成mysql中hive数据库参考博主的单机搭建博客试一试(里面包含了安装包无需寻找对应安装包)hive单机安装教程,简单实用hive集群搭建在server节点上进行安装hive,配置hive-site.xml文件,并且配置相应的环境变量等。但是不要进行初始化,即使你进行了也不会成功,但最好别这样做。配置hive-site.xml文件有变化<?xml version="1.0"?><?xml-原创 2021-03-11 13:58:16 · 171 阅读 · 0 评论 -
hadoop组件中的hive安装
一、hive安装前提1. 安装好一台纯净linux虚拟机2. 安装好hadoop,用于练习一台就够,不需要集群3. 安装好mysql二、linux虚拟机配置1.配置静态地址vi /etc/sysconfig/network-scripts/ifcfg-ens332. 修改主机名vi /etc/hostname3.修改hostsvi /etc/hosts三、使用rpm安装mysql1. 查看系统中是否有数据库1.rpm -qa | grep mysql --查看是否存在my原创 2020-07-07 23:56:14 · 2196 阅读 · 0 评论 -
hive映射hbase表数据
hive映射hbase表【说明】一般来说,hive映射表数据都是映射hdfs上的数据,直接通过location 指定映射目录,然后可以查询数据。但是hive映射hbase表数据,是直接映射hbase中的表。hbase需要被hive映射的表的建表语句create 'events_db:user_friend', 'uf'【注释】events_db: 是命名空间user_friend: 是hbase中的表名uf: 是列族hive创建表映射hbase中user_friend表开启动态分区原创 2020-09-09 20:01:53 · 911 阅读 · 0 评论 -
hive【truncate table 表名 报错】【Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTa】
truncate在beline中报错0: jdbc:hive2://192.168.222.115:10000> truncate table sales_order;FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Exception while processingError: Error while processing statement: FAILED: Executi原创 2020-09-02 11:37:12 · 2202 阅读 · 0 评论 -
Hive优化【提高效率,减少资源浪费等】
一、谨慎使用API大数据场景下,必然是有大量的数据,因此大数据场景下并不怕数据量大,不行可多开几个节点,用以存储。但是大数据场景下,害怕的是数据倾斜,如果使用不当API,很容易造成数据倾斜问题。容易数据倾斜情况group by 不和聚集函数搭配使用的时候count(distinct),在数据量大的情况下,容易数据倾斜,因为 count(distinct)是按 group by 字段分组,按 distinct 字段排序小表关联超大表 join产生数据倾斜的原因key 分布不均匀业务数据本原创 2020-07-21 19:23:18 · 2025 阅读 · 0 评论 -
hive函数分类,常用函数整理【案例说明】
一、hive函数分类从输入输出角度分类标准函数: 一行数据中的一列或多列为输入,结果为单一值聚合函数: 多行的零列到多列为输入,结果为单一值表生成函数: 零个或多个输入,结果为多列或多行。从实现方式分类内置函数自定义函数UDF:自定义标准函数UDAF:自定义聚合函数UDTF:自定义表生成函数二、标准函数数学函数round1.1 round(double a)说明:返回对a四舍五入的bigint值代码解释select round(3.423);结果为:3.0原创 2020-07-20 00:48:37 · 2134 阅读 · 0 评论 -
hive 查询练习
一、创建数据库并使用数据库--创建数据库create database if not exists lyq;--使用数据库use lyq;二、创建所需要的表,并插入数据--创建表-- 课程表create table if not exists course(course_id int,course_name string,teacher_id int);-- 分数表create table if not exists score(student_id int,course_id int原创 2020-07-19 00:59:33 · 2562 阅读 · 0 评论 -
hive数据排序、和窗口函数
一、hive的四种排序1. Order by 可以指定desc降序 asc升序Order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序,即使设置了多个Reduce,程序依然会按照一个Reduce进行排序)。Order by全局排序,又一个缺点,就是只有一个Reducer,会导致数据规模较大是,消耗较长的计算时间。案例演示:-- 创建一个分数表create table score(stu_id int,stu_name string,stu_class原创 2020-07-13 00:03:11 · 4798 阅读 · 0 评论 -
hive高级查询、Map Join【配案例演示,有图有真相】
一、hive嵌套查询和CTECTE嵌套查询演示CTE跟以前的mysql中的嵌套查询是一样的效果,把查询结果作为另一个查询的表,再对这张表进行查询,这种属于嵌套查询。相比之下,hive的STE显得更有逻辑。创建两张表,插入数据,演示CTE嵌套查询#创建表abc> create table abc( > userid int, > username string, > salary int, > position string &g原创 2020-07-12 19:41:15 · 2009 阅读 · 1 评论