
hive
文章平均质量分 84
小布-01
10年编程经验,乐观向上,爱分享
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive常用函数总结
1、显示当前可用函数>SHOW FUNCTIONS;2、显示函数的具体描述信息>DESC FUNCTION EXTENDED concat;3、聚合函数函数处理的数据粒度为多条记录。sum()—求和 count()—求数据量 avg()—求平均直 distinct—求不同值数(去重) min—求最小值 max—求最人值4、字符串函数(1)字符串长度函数:...原创 2018-12-05 11:41:15 · 2110 阅读 · 1 评论 -
hive中order by 、sort by、distribute by、cluster by、group by操作
order by对输入做全局排序,因此只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。SELECT * FROM db_hive.employee ORDER BY empID desc; //按照empID降序排列sort by不是全局排序,其在数据进入reducer前完成排序。因此,如果用sort by进行排序,并且设置mapreduce.job.redu...原创 2018-12-11 09:48:47 · 4693 阅读 · 0 评论 -
数据倾斜解决方案
数据倾斜定义简单的讲,数据倾斜就是我们在数据计算的时候,由于数据的分散度不够,导致大量的数据集中到了一台或者几台机器上计算,这些机器的计算速度远远低于整个集群的平均计算速度,导致整个计算过程十分缓慢。常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中,比如:用Hive数据计算的时候reduce阶段卡在99.99%用SparkStreaming做实时算法的时候,一直会有executo...原创 2018-12-11 09:11:47 · 3080 阅读 · 0 评论 -
hive自定义函数UDF的使用方法
虽然Hive已经提供了很多内置的函数,比如count()、sum(),但是还是不能满足用户的需求,因此提供了自定义函数供用户自己开发函数来满足自己的需求。本实例通过编写自己的UDF,实现通过一个人的出生日期,计算其所属的星座。一、自定义函数分类UDF(User-Defined-Function)用户自定义函数,输入一个数据然后产生一个数据;UDAF(User-Defined Aggregat...原创 2018-12-06 14:05:43 · 11473 阅读 · 2 评论 -
Hive调用python脚本
Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能,本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。操作步骤:1、创建基表CREATE TABLE u_data ( userid INT, //用户ID movieid INT, //电影ID rating INT, //电...原创 2018-12-06 11:04:29 · 6115 阅读 · 1 评论 -
Hive架构组成
Hive架构包括如下组件:Client、Thrift Server、Metastore和Driver。(1)Client用户接口,主要包含CLI(command language interface)、JDBC或ODBC、WEBUI(以浏览器访问hive);(2)Thrift Server提供JDBC/ODBC接入的能力,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不...原创 2018-12-04 09:16:04 · 4975 阅读 · 0 评论 -
Hive分区和分桶
分区的目的是缩小搜索范围,加快查询速度;分区是针对表进行的,一个表可以从多个维度进行分区,比如按照日期进行分区;分区是创建表时通过PARTITIONED BY子句定义的,如:CREATE TABLE employee(eid int,name string,salary string,destination string) > PARTITIONED BY (dt string, c...原创 2018-12-04 09:31:47 · 1159 阅读 · 0 评论 -
hive的文件存储格式
Hive支持的文件存储格式有TEXTFILESEQUENCEFILERCFILEParquetORCFile自定义格式在建表的时候,可以使用STORED AS子句指定文件存储的格式。一般情况下,先建立一张存储格式为TEXTFILE的表,然后建立一张同类型、存储格式不同(ORC/PARQUET)的表,一方面实现数据压缩,另外增加查询效率。TEXTFILE即通常说的文本格式,默认长...原创 2018-12-04 18:41:51 · 1024 阅读 · 0 评论 -
hive常用操作指南
数据库操作创建数据库:CREATE DATABASE db_hive;高级:CREATE DATABASE db_hive [if not exists] db_hive##显示数据库:SHOW DATABASES;##查看数据库信息DESC DATABASE db_hive;##删除数据库:DROP DATABASE IF EXISTS db_hive;##进入数...原创 2018-12-04 19:00:50 · 1253 阅读 · 0 评论 -
数据仓库维度建模疑点总结
1、维度建模定义?维度模型是专为统计分析优化的数据模型,维度模型的设计由业务流程驱动,每一个业务流程对应一张事实表以及若干维度表。2、一个数值数据元素是事实属性还是维度属性?(属于事实表还是维度表)在对每项业务做统计分析时,我们所关心的指标记录在事实表中,如交易金额、利润、销售量等;过滤与分组的条件则记录在维度表中,如交易时间,地区,商品种类等。在设计事实表中,一个原则就是我们要尽量存储可...原创 2018-12-04 20:16:14 · 1978 阅读 · 2 评论 -
数据仓库元数据介绍
当需要了解某地企业及其提供的服务时,电话黄页的重要性就体现出来了。元数据(Metadata)类似于这样的电话黄页。元数据的定义数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓...原创 2018-12-04 20:56:56 · 7617 阅读 · 0 评论 -
数据仓库的分层架构
数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。(1)ODS层:为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理...翻译 2018-12-04 21:32:57 · 17315 阅读 · 0 评论 -
Hive与关系型数据库对比
查询语言由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。数据存储位置Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的;而数据库则可以将数据保存在块设备或者本地文件系统中。数据格式Hive 中没有定义专门的数据格式,数据格...原创 2018-12-05 10:19:59 · 1977 阅读 · 0 评论 -
hive调优总结
###(1)本地模式:hadoop默认会将job提交到YARN集群,如果在测试阶段数据量比较小,可开启本地模式,加快程序执行的速度。set hive.exec.mode.local.auto=true;###(2)小表join大表1、保证大表在后,小表在前;原因:多表join时,hive假定查询中最后一个表是最大的表,在对每行记录进行join操作时,他会尝试将其他表缓存起来,然后扫描最后...原创 2019-04-08 17:40:22 · 1949 阅读 · 0 评论