
hive
闻香识代码
这个作者很懒,什么都没留下…
展开
-
Hive 导入Json格式化数据插件JsonSerDe(hive 3.1.2可用)
Hive 导入Json格式化数据插件JsonSerDe1. 官方连接https://gitee.com/mirrors_dblock/Hive-JSON-Serde2. 使用实测 hive 3.1.2也是可以使用的使用时脚本演示CREATE EXTERNAL TABLE ODS17.APP_ACTION_LOG(account string comment 'user login account' , -- 用户登录账号appI原创 2020-10-12 21:19:12 · 754 阅读 · 0 评论 -
Spark SQL 集成Hive(二)
Spark SQL 集成Hive(二)1. 背景Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器,将SQL转换为spark程序Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。这种集成也原创 2020-10-08 14:25:09 · 211 阅读 · 0 评论 -
Spark SQL 集成Hive(一)
Spark SQL 集成Hive(一)1. 背景Hive可以看做是一个转换器,将SQL转换为mapreduce或者spark程序Spark SQL也可以看成一个转换器,将SQL转换为spark程序Hive集成Spark SQL有几种集成方式,一种是直接使用Spark SQL替代Hive,SQL是Spark SQL,程序转换也是Spark 程序,唯一有关联的就是一个hive-site.xml配置文件。本文讲述的就是第一种另外一种集成方式就是SQL还是hive,但执行引擎变成了Spark。2.原创 2020-10-08 11:34:33 · 734 阅读 · 0 评论 -
Hive 企业级调优知识总结
Hive 企业级调优知识总结1. 背景2.调优之Fetch抓取3.调优之本地模式4.调优之表优化5.调优之数据倾斜处理6.调优之并行模式7.调优之严格模式设置8.JVM重用9. 推测执行10. 压缩11. 执行计划(explain)搜索...原创 2020-09-09 21:53:36 · 236 阅读 · 0 评论 -
Hive (Hadoop)之数据压缩和存储知识总结
Hive 之数据压缩和存储知识总结1. 背景2. hadoop源码编译来支持snappy压缩方式3. hadoop压缩参数配置4. 开启map输出阶段压缩5. 开启reduce输出阶段压缩6. 文件存储格式(压缩和非压缩)7.存储和压缩结合8. 总结...原创 2020-09-09 20:53:22 · 403 阅读 · 0 评论 -
HQL (hive sql)之函数总结
HQL (hive sql)之函数总结1. 背景作为操作hive客户端的编程语言,hql有自己的数据类型,自然也有编译器,也有函数。并且这个函数有内置,也允许自定义来扩展功能注意,不管是普通hql语言还是函数,最终都是转换为mapreduce程序来运行。(很少部分例外,是一些sql语句可以优化为不使用mapreduce,直接读取文件获取结果即可)2. hive定义函数2.1. 查看系统自带函数show functions;2.2. 显示自带函数用法 desc function upp原创 2020-09-06 21:41:33 · 2021 阅读 · 0 评论 -
HQL(Hive SQL) 之查询语句专题汇总
HQL(Hive SQL) 之查询语句专题汇总1. 背景hive本身是一个将sql语句转换为mapreduce 程序运行的转换器hive可以把结构化数据转换到一张表上,并提供查询和分析的功能针对这个过程,hive从sql优化、从mapreduce优化这2个大的角度来提升hive的性能表现。sql优化,这个基于现有的第三方组件是比较成熟的技术解决方案。但优化mapreduce则需要更多精力。因为mapreduce代码是根据模板,将sql经过这个模板,转换为mapreduce程序。hive本身是一原创 2020-09-06 20:38:51 · 2243 阅读 · 2 评论 -
HQL(Hive SQL)DML之数据导入导出知识汇总
HQL(Hive SQL)DML之数据导入导出知识汇总1. 背景作为一个将sql转换为mapreduce的转换器,其操作语言HQL必然会划分DDL和DMLHive的sql和传统数据库的sql不一样,hive主要用于数据仓库分析工具,也就是常说的数据一次导入,多次查询和分析。所以数据导入和导出属于重点设计和关注点。关于Hive的博客会是一个系列,考虑到数据查询的重要性,后面会专文说明。本文只讲述关于数据导入和导出的操作。2. 数据导入2.1 向表中加载数据语法load data [l原创 2020-09-05 20:54:24 · 646 阅读 · 0 评论 -
Hive HQL知识DDL汇总之数据表操作
Hive HQL知识DDL汇总之数据表操作1. 数据表操作概述数据库中database和table可以看作是2级文件管理,如mysql在windows下的数据库文件就是划分2级文件夹目录。数据表的操作,可以简单分为建立表格,对表结构修改、删除表。hive的表,元数据存储在单独的数据库中,本文配置为存放在mysql中。表中数据则存放在hdfs中。如下图示例2 创建表2.1 概述建表语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_na原创 2020-09-05 18:01:54 · 462 阅读 · 0 评论 -
Hive HQL知识DDL汇总之数据库操作
Hive HQL知识DDL汇总之数据库操作1. 概述Hive可以将结构化数据、文件转换为一张表来进行数据查询和分析。Hive基于SQL规范实现了一套类SQL的查询规范,称之为HQLSQL本身是一种编程语言规范,数据类型定义、函数定义、DDL(data definition language)、DML(data manipulation language)。HQL可以看成是输入的信息,经过hive驱动转换后(sql解析、sql优化、编译–将sql转换为mapreduce程序、执行器),最终是变成了原创 2020-09-05 17:06:18 · 288 阅读 · 0 评论 -
Hive 数据操作之JDBC总结
Hive 数据操作之JDBC总结1. 背景Hive作为一个处理结构化数据和文件的工具,可以通过多种方式进行数据操作和处理。Hive本身可以简单看成一个将sql语句转化为mapreduce程序或者类mapreduce程序的转换器,数据处理还是由转换出来的mapreduce程序在处理。Hive可以将结构化数据转换为一张表,然后通过HQL(属于SQL规范的一种实现方式)来进行数据查询和操作。数据操作则可以简单分为几类操作数据导入数据导出数据插入数据查询数据更新和删除(在hive的场景中原创 2020-09-05 10:17:23 · 1819 阅读 · 0 评论 -
Hive 总结之数据类型归纳
Hive 总结之数据类型归纳1. 背景Hive的本质是一个转换工具,将类sql语句(HQL)转换为mapreduce程序或者类mapreduce程序(hadoop的mapreduce或者spark)。Hive可以处理结构化数据并转换为一张表来提供对外的数据查询和分析。但本身不能存储数据。Hive的表的元数据(schema等信息)存储在数据库中,一般配置为使用mysql存储,不设置就是默认的derby数据库存储。数据信息则存储在hdfs中。既然涉及到类SQL(HQL),则必定语法上主体和SQL规范原创 2020-09-04 23:06:42 · 1334 阅读 · 0 评论 -
Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析
Hive Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析1. 背景使用hive过程中,遇到问题有时候信息不是很足够,这时候就需要去想办法查看错误信息。而这类服务器框架的错误信息一般都存放在日志中hive的日志不设置的话,默认存放在/tmp下当前用户所在目录,本文演示是root用户,所以文件存放在tmp文件夹下的root目录下/tmp/root已经按照日期和时间进行存储,查看最原创 2020-09-04 21:34:31 · 49607 阅读 · 8 评论 -
Hive HQL面试题(窗口函数over)(二)
Hive HQL面试题(窗口函数over)(二)1. 数据准备1文本文件a,2020-02-10,600a,2020-03-01,200a,2020-03-02,300a,2020-03-03,200a,2020-03-04,400a,2020-03-05,600a,2020-02-05,200a,2020-02-06,300a,2020-02-07,200a,2020-02-08,400b,2020-02-05,200b,2020-02-06,300b,2020-02-0原创 2020-09-03 23:40:48 · 753 阅读 · 0 评论 -
Hive HQL面试题(group by和case when)(一)
HQL面试题(一)1. 数据准备gz.txt 用户工资组成表用户id(uid), 基本工资(jb) 奖金(jj) 提成(tc) 部门编号( deptno)1,2000,3000,1500,12,5000,500,1000,23,1500,1000,3000,24,3000,6000,8000,35,1500,2000,1800,16,2500,1000,1900,1bm.txt 部门表1,销售2,技术3,行政yg.txt 员工信息表原创 2020-09-03 22:40:24 · 2997 阅读 · 0 评论 -
Hive常见属性配置总结
Hive常见属性配置总结1.概述和其他所有框架一样,hive的配置信息也是划分层级的,就近原则如果是使用java api进行操作,则代码中配置优先级最高,然后是java项目中配置文件,然后是hive安装目录中的配置文件如果是shell 客户端进行操作,则hive指令中参数优先级最高,然后是shell客户端启动时的配置信息,然后是hive安装目录中配置。2. 具体配置Hive数据仓库位置配置Default数据仓库的最原始位置是在hdfs上的:/user/hive/warehouse路原创 2020-09-02 23:46:00 · 603 阅读 · 0 评论 -
Hive启动和简单指令总结
Hive 启动总结1. 背景作为传统的服务器端程序,hive具备多种启动方式java api(jdbc)、shell客户端、web页面jdbchttps://mvnrepository.com/search?q=hive-jdbcshell 客户端就是本身做讲解的连接方式web页面http://linux100:10002/2. 启动方式2.1 环境准备hive安装 安装hdfs环境 安装hdfsyarn环境 安装yarnmysql环境安装mys原创 2020-09-02 22:32:05 · 2084 阅读 · 0 评论 -
大数据处理技术之Hive 概览
大数据处理技术之Hive 概览1. 大数据架构如我另一篇博客了所述,大数据处理技术架构和业务应用,大数据业务和技术架构简图如下:整个大数据技术可以分为3大块,数据存储、数据处理和分析、数据展示。三大板块都可以独立和业务系统对接,但一般这三者都会形成一个技术体系对外部的技术体系提供服务。例如一家公司内部的大数据部门负责存储从业务体系中获取到的海量数据如日志、业务数据等等,然后通过mapreduce、hive、spark、flink等技术进行分析处理,之后再通过OLAP对外进行数据展示或者提供对外A原创 2020-09-02 21:14:39 · 1489 阅读 · 0 评论 -
Hive 3.1.2安装(基于Centos7.x和Hadoop3.2.1)
Hive 3.1.2安装(基于Centos7.x和Hadoop3.2.1)背景Hadoop大数据套件被应用后,进行数据处理就必须编写mapreduce代码。而相当一部分大数据处理需求都是进行数据的查询操作(实际数据库的操作中,读写操作比例也有80%:20%的说法)Facebook的工程师也遇到这个问题。编写mapreduce对于程序员还是有一定门槛,但是会使用sql的人群更庞大。所以Facebook就发明了Hive,一个把sql语句转换为mapreduce代码的转换器。不过Hive的使用场景,还是原创 2020-08-24 20:47:32 · 2959 阅读 · 4 评论