
hive
挽歌亽朽年
平生不做皱眉事,世上应无切齿人!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
linux中的MySQL安装部署及hive搭建
linux中mysql安装部署:1、查看当前的centos系统中有没有已经安装的mysqlrpm、yum[root@hadoop1 ~]# rpm -qa | grep mysql*mysql-libs-5.1.71-1.el6.x86_642、卸载已经安装mysql[root@hadoop1 ~]# rpm -e --nodeps mysql-libs-5.1.71-1.el6.x8...原创 2020-03-17 12:51:23 · 444 阅读 · 0 评论 -
HiveQL查询2
1.2WHERE语句select语句用于选取字段,WHERE语句用于过滤条件,两者结合使用可以查找到符合过滤条件的记录可以使用AND和OR相连接,当谓词表达式计算结果为true时,相应的行将被保留并输出select * from employesswhere country=‘US’ and start=‘CA’;谓词可以引用和select语句中相同的各种对于列值的计算不能在WHERE...原创 2020-02-11 14:24:51 · 200 阅读 · 0 评论 -
HiveQL查询1
1.1select……from语句select是SQL中的影子,from字句标示了从哪个表、视图或嵌套查询中选择记录。对于一个给定的记录,select指定了要保存的列以及输出函数需要调用的一个或多个列select 查询字段 from 表;1.1.1使用正则表达式来指定列的例子:select symbol,‘price.*’ from stocks;1.1.2使用列值进行计算用户不但可以...原创 2020-02-11 13:37:17 · 481 阅读 · 0 评论 -
Hive数据导入
1.操作准备数据源drop table if exists b;create table b as select id,name,tel,age from b;2.复制文件如果数据文件恰好是用户需要的格式,那么只需要复制文件或文件夹就可以hadoop fs -cp source_path target_path3.导出到本地文件系统不能使用insert into local dire...原创 2020-02-09 11:31:38 · 159 阅读 · 0 评论 -
导入数据的方法及视图
导入数据的方法:1从本地系统导入数据1.1load data local inpath ‘/bigdata/1.txt’ overwrite into table extaljsk;此处使用的是LOCAL,表示从本地文件系统中加载数据到Hive中,同时没有OVERWRITE关键字,仅仅会把新增的文件增加到目标文件夹而不会删除之前的数据。如果使用OVERWRITE关键字,那么目标文件夹中之前的...原创 2020-02-08 13:09:33 · 489 阅读 · 0 评论 -
桶表
桶表:桶是将表的列通过Hash算法进一步分解成不同的文件存储。对指定列计算hash值,根据hash值切分数据,目的是为了并行。每一个桶对应一个文件(注意和分区的区别),一个作业产生的桶输出文件和reduce任务个数相同。分区是粗粒度的划分,桶是细粒度的划分,这样可以让查询发生在小范围的数据上,提高查询效率,适合进行表连接查询,适合用于采样分析。桶表的特点: 为了取样更高效 ...原创 2020-02-08 13:05:22 · 732 阅读 · 0 评论 -
显示表的相关信息
显示表的相关信息 :show table status like ‘表名’ \GName : 表名Engine :表的存储引擎类型Row_format :行的格式Rows :表中的行数Avg_row_length :平均每行包含的字节数Data_length :表数据的大小Max_data_length :表数据的最大容量,该值和存储引擎有关Index_length :索引的大小...原创 2020-02-07 13:07:10 · 238 阅读 · 0 评论 -
hive的静态分区和动态分区
分区表:分区是表的部分列的集合一般为频繁使用的数据建立分区,在查找分区中数据时不用扫描全表,有利于提高查找效率Hive每个表有一个相应的目录存储数据,表中的的每一个分区对应表目录下的一个子目录,每个分区中的数据存储在对应子目录下的文件中关键字是partitioned分区表实际上是将表文件分成多个有标记的小文件方便查询partitned by子句中定义的列是表中正式的列(分区列),但...原创 2020-02-07 13:04:53 · 228 阅读 · 0 评论 -
hive的内部表与外部表
内部表:–仅限HIVE内部使用每个Hive内部表在HDFS中都有对应目录用来存储表的数据。“/user/hive/warehouse/数据库名“下生成表的目录,创建时数据会移动到数据仓库所指向的位置内部表的创建过程和数据加载过程可以分别独立完成,也可以在同一个语句中完成。删除内部表时,该目录和数据文件、元数据会被同时删除。建内部表:Hive>create table pers...原创 2020-02-06 17:17:42 · 377 阅读 · 0 评论 -
hive
1.查看表的详细属性信息 【desc formatted】hive> desc formatted 表名;OK2.重命名表 【Rename To】对于内部表,除了更新表的元数据之外,还对表的目录名称进行修改。对于外部表,这个操作只更新元数据,但不会更改存放数据的目录名称。hive> alter table 旧表名 rename to 新表名;OK3.添加新列 【Ad...原创 2020-02-04 13:48:58 · 880 阅读 · 0 评论 -
Hive介绍
Hive的定义(1)Hive是基于Hadoop的一个数据仓库工具。数据仓库是为了协助分析报告,支持决策,为需要业务智能的企业提供业务流程的改进和指导,从而节省时间和成本,提高质量(2)适合数据的统计分析,可以将数据文件组成表格并具有非常完整的类SQL查询功能。主要用来访问和管理超大规模的数(据(3)可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为...原创 2020-02-03 19:35:51 · 310 阅读 · 0 评论