HiveQL的一些技巧

最新推荐文章于 2022-08-12 16:36:37 发布

iteye_11539

最新推荐文章于 2022-08-12 16:36:37 发布

阅读量100

点赞数

文章标签：大数据数据结构与算法 json

随机抽样

有的时候我们需要从一张大表中随机抽取一定量的样本供分析，Hive中提供了一个rand()函数，我们就利用这个来实现随机抽样。

思路如下：

对于表中每行均附加一个随机的整数，然后再以该整数进行orderBy即可得。

例如下面这个

selectvt.user_nick,vt.vidxfrom(
selectuser_nick,cast(rand()*100000asint)asvidx
froms_mc_xcard_userwherept='20120808000000'
orderbyvidxlimit10000
)vtorderbyvt.vidxlimit100

处理复杂的数据结构

如果我们希望将复杂的数据结构存储在Hive表中，可以使用Json字符串这种东东来承载。Hive中提供了一个get_json_object的函数供json解析；这个函数里面的第二个参数比较令人费解，不过官方文档还算是清楚。

另外hive还提供了array，struct, map等数据结构，貌似目前功能很少，不建议使用。

行列转置

比如有一张这样的表：

uid int	mydata array
100	'a','b','c'
101	'a','c'

其中data字段是一个array类型（可由split函数得到）。

我们希望得到下面这样的结果：

'a'	2
'b'	1
'c'	2

其中，第二个字段的含义是各个data的分量出现的次数。

在Hive中，这种能生成了新的行函数被称作UDTF，这里我们可以使用explode+lateral view来达到目的。

SELECTonedata,count(1)FROMtblLATERALVIEWexplode(mydata)
vdataASonedata;

-----

转载自：http://spinlock.blog.51cto.com/607469/959607

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_11539

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

HiveSQL常用技巧

华夏_数据分析

08-19

703

1. 去重技巧—用group by替换distinct 取出user_trade中的全部支付用户 ## 原有写法 SELECT distinct user_name FROM user_trade WHERE dt>'0'; ## 优化写法 SELECT user_name FROM user_trade WHERE dt>'0' GROUP BY user_name; 在2...

HiveQL：数据定义

lvqianqian_csdn的博客

06-16

441

内容提要 lHive中的数据库操作 lHive中的表操作 HiveQL是Hive查询语言。和普遍使用的所有SQL方言一样，它不完全遵守任意一种ANSISQL标准的修订版。HiveQL可能和MySQL的方言最接近，但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive增加了在Hadoop背景下的可以提供更高性能的扩展，以及一些个性化的扩展，甚至还增加了一些外部程序。当然了，大部分的HiveQL还是很常见的。本章以及随后的几章将会使用一些典型的例子来讲解H...

参与评论您还未登录，请先登录后发表或查看评论

HiveQL Tips

爱飞的蒲公英

08-21

838

在Hive中，某些小技巧可以让我们的Job执行得更快，有时一点小小的改动就可以让性能得到大幅提升，这一点其实跟SQL差不多。首先，Hive != SQL，虽然二者的语法很像，但是Hive最终会被转化成MapReduce的代码去执行，所以数据库的优化原则基本上都不适用于 Hive。也正因如此，Hive实际上是用来做计算的，而不像数据库是用作存储的，当然数据库也有很多计算功能，但一般并不建议在SQ

hive 使用技巧笔记

weixin_34384557的博客

02-15

140

来源：http://michael-roshen.iteye.com/blog/2115268例子：INSERT OVERWRITE TABLE prices_collected_${hiveconf:wid_version}selectpc.collect_id as product_id ,regexp_extract(pc.price,'(\\d*\\.?\\d+)...

HIVE的一些实用技巧

dinghua_xuexi的专栏

07-04

326

1 设置会话级别的参数 # 显示 config 配置的值 # 格式 set <config>; # 示例 set hive.cli.print.current.db # 设置config配置的值 # 格式 set <config>=<config_value>; # 设置示例 set hive.cli.print.current.db=true; 疑问：调优的时候很多参数是可以调整的，为什么不配置到全局的里面 (hive-site.xml 文件..

HiveQL语言基础及常用操作

# 第一章：HiveQL语言简介 HiveQL是一种类似于SQL的查询语言，用于在Hive中对存储在Hadoop中的数据进行操作和分析。在本章节中，我们将介绍HiveQL语言的基本概念、与传统SQL的异同以及其优势和应用场景。 ## 1.1 ...

HiveQL基础语法与数据查询实践

HiveQL是Hive的查询语言，它与传统的SQL语言类似，但也有一些不同之处。HiveQL可以将结构化查询语言转化为MapReduce任务来执行查询操作。 ## 1.3 Hive表和数据类型在Hive中，表是由列和分区组成的数据结构。Hive...

datav.js源码工具介绍及HiveQL功能详解

这可能是一个纯文本文件，包含了Hive的一些细节性描述，比如它的架构、工作原理或者一些高级配置和技巧。 4. Hive任务优化--控制hive任务中的map数和reduce数.txt Hive任务优化是大数据处理中的一个重要方面。该...

一些SQL开发的经验，真实的工作经验

02-28

这里我们主要关注的是Hive SQL的书写技巧，这是大数据处理和分析中的重要工具。Hive是一个基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，非常适合大规模数据集的...

一个简单的sql循环语句脚本

03-13

一个简单的sql循环语句脚本

hive常用技巧

weixin_42644102的博客

05-10

282

此篇不定时更新不成系统，为随笔； – Move partition from table_name_1 to table_name_2 ALTER TABLE table_name_2 EXCHANGE PARTITION (partition_spec) WITH TABLE table_name_1; – multiple partitions ALTER TABLE table_name_2...

Hive小技巧及优化

weixin_33834137的博客

03-14

查询除了ds 和 hr 之外的所有列SELECT (ds|hr)?+.+ FROM saleshttps://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select#LanguageManualSelect-REGEXColumnSpecification修改表生命周期(ODPS)ALTER TABLE table_name S...

Hive小技巧和调优

haveanybody的博客

03-26

1253

作为Hadoop生态圈中的重要组件，Hive在数据分析、处理方面扮演着异常重要的角色。另外，Hive作为大数据组件，处理的数据量往往很大，合适的优化技巧在运行效率方面往往可以起到非常好的效果。 1、筛选重复记录这是在业务中经常遇到的一个问题，主要场景往往是，同一条记录被多次插入，或者同一个id对应多条记录，但是只需要其中一条就足矣。（1）对于重复记录，如果是数据去重，自然是可以使用dis...

hive简介及使用技巧

qq_38963685的博客

07-08

473

1.HIVE简介 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张数据库表，并提供简单的sql查询功能，可以将sql语句转化为mapreduce任务进行运行。hive定义了简单的类sql查询语言，称为HQL，允许熟悉SQL的用户查询数据。同时这个语言也允许熟悉MapReduce的开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法处理的复杂的分析工作。 2.HIVE-DDL Hive建表(压缩表和非压缩表) 一个表可以拥有一个或

Hive基础进阶10大技巧

hebiwen95的博客

08-12

456

一个分区对应着一个包含有多个文件的文件夹，如果指定的表存在数百个分区，每天都会创建好几万个小文件，保持多年之后，就会超出NameNode对系统云数据信息的处理能力，因为HDFS namenode会将所有的文件系统的元数据信息加载到内存中，虽然每个文件只需要少量字节大小的元数据（大约150字节/文件）。按天划分表就是一种模式，每天一张表的方式在数据库领域是反模式的一种方式，按天划分的表建议使用分区表，hive通过where子句中的表达式来选择查询所需要的指定的分区，这样查询执行效率高。...

[大数据] HiveQL知识点

GoGoGo

08-02

328

Q1：什么是数据倾斜，怎么产生，怎么解决？ Q2：什么是hive的严格模式（strict mode）？　　 Q3：order by, sort by, distribute by, cluster by的区别？ Q4：collect_all()的作用？ Q5：三个排名函数的区别？ Q6:Hive原理 Q7：Hive存储元数据的方式？ Q8：Hive优化方法 Q1：...

HiveQL 使用常识总结

三笔竹林的博客

10-13

976

在实习中用到了Hive, 把HiveQL常用到的知识点整理记录一下 1.Hive里的相等是= 不是 == 如果要比较一个变量是NULL 应该写 somevar is NULL 而不是somevar = NULL 2.case when 要跟end才能结束 3.进入Linux系统后输入 hive进入hive模式，指示符变成 hive> 4.hive> show databases