
hive
阿雅Yage
这个作者很懒,什么都没留下…
展开
-
Centos7搭建Hive1.2.2(包括安装mysql及启动hive遇到的坑)
安装mysqlCentos7默认的是 Mariadb而不是mysql,将mysql数据库软件从默认的程序列表中移除,用mariadb代替了。如果使用以下命令安装,则安装mysql-server失败:#yum install mysql#yum install mysql-server查看是否安装mysql,结果返回空值:[root@master mysql]# rpm -qa | gre...原创 2019-04-12 17:28:28 · 2213 阅读 · 0 评论 -
HiveQL(四):数据操作(装载数据、动态分区、导出数据)
1 向表中装载数据1.1 向管理表中装载数据Hive没有行级别的数据插入、数据更新和删除操作,往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。或者通过其他方式仅仅将文件写入到正确的目录下。下述语句将本地数据装载到分区表employees:LOAD DATA LOCAL INPATH '/data/california-employees'OVERWRITE INTO TABL...原创 2019-05-05 17:27:47 · 1337 阅读 · 0 评论 -
HiveQL(三):修改表ALTER TABLE
1 修改表大多数的表属性可以通过ALTER TABLE语句来进行修改。这种操作会修改元数据,但不会修改数据本身,比如修改表模式中出现的错误、改变分区路径等。1.1 表重命名使用以下语句可将表log_messages重命名为logmsgs:ALTER TABLE log_messages RENAME TO logmsgs;但是在hdfs上warehouse目录下的该表的目录还是log_...原创 2019-05-04 17:40:03 · 7976 阅读 · 0 评论 -
HiveQL(二):分区表
1 分区表(管理表)1.1 创建分区表(定义分区字段)我们重新来看之前的employees表,其address字段包含了city(市)、state(州)等信息,查询人员经常会执行一些带WHERE语句的查询,这样可以将结果限制在某个特定的国家或者某个特定的细分(例如‘美国的州’或‘加拿大的省’)。那么久先按照country(国家)再按照state(州)来对数据进行分区吧:CREATE TABL...原创 2019-05-04 14:18:35 · 457 阅读 · 0 评论 -
HiveQL(一):数据库及创建、删除表(管理表、外部表)
HiveQL是Hive查询语言。和普遍使用的所有SQL方言一样,它不完全遵守任一种ANSISQL标准的修订版。HiveQL可能和MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事务。当然了,大部分的HiveQL还是很常见的。本篇首先介绍Hive中的数据库概念以及操作细节。1 Hive中的数据库hive中数据库的概念本质上仅仅...原创 2019-05-03 19:43:15 · 3679 阅读 · 0 评论 -
Hive的Order by、Sort by、Distribute by和Cluster by的区别
在Hive中,可以像SQL一样对数据进行全局或局部排序,这里利用orders表来测试order by、sorty by、distribute by和cluster by的排序结果。数据准备orders表的字段如下:利用order_dow(其取值范围是0-6)字段来测试orders表的数据如下(limit 20):在以下测试中我设置reduce数为3,便于观察不同排序的效果set ma...原创 2019-04-28 16:07:28 · 3397 阅读 · 1 评论 -
hive sql练习
用来作练习的两张表的结构及部分数据如下:可以看到,1个用户可以有很多个订单,每个订单里拥有很多个商品,题目一:每个用户有多少个订单思路:在orders表中按照user_id分组,组内统计订单个数(去重)select user_id, count(distinct order_id) as ord_cntfrom ordersgroup by user_idorder by ord_cn...原创 2019-05-02 15:45:42 · 1989 阅读 · 0 评论 -
Hive命令实践(内部表、外部表、分区、分桶等)
环境准备先启动hadoop集群然后启动mysql[root@master ~]# mysql -u root -p输入密码进入mysql并切换到数据库hivemysql> use hive;启动hive[root@master sbin]# hive数据集准备本地有以下两个数据文件作为表的数据源ratings.csv:1,31,2.5,12607591441,1...原创 2019-04-20 17:13:48 · 740 阅读 · 0 评论 -
Hive读取表数据时跳过文件行首和行尾
有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用tblproperties属性设置来实现,建表的时候设置如下:create external table order_products_prior(order_id string,product_id string,add_to_cart_order string,...原创 2019-05-23 18:27:57 · 929 阅读 · 0 评论