
数据仓库
散_步
但行好事,莫问前程
展开
-
Apache Impala
Impala 基本介绍:impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine--网络搜索引擎、Pregel--分布式图计算、Dremel--交互式分析工具)当中的Dremel实现而来...原创 2020-04-03 17:11:23 · 234 阅读 · 0 评论 -
Hive调优
Fetch抓取:Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM score;在这种情况下,Hive可以简单地读取score对应的存储目录下的文件,然后输出查询结果到控制台。通过设置hive.fetch.task.conversion参数,可以控制查询语句是否走MapReduce.案例实操:1.)把hive.fetch.task.conve...原创 2020-04-03 15:55:31 · 268 阅读 · 0 评论 -
文件存储格式与数据压缩结合
压缩比和查询速度对比:TextFile: 创建表,存储数据库格式为TEXTFILE;create table log_text (track_time string,url string,session_id string,referer string,ip string,end_user_id string,city_id string)ROW FOR...原创 2020-04-02 22:16:12 · 349 阅读 · 0 评论 -
Hive的数据压缩
在实际工作当中,hive当中处理的数据,一般都是需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,这里的hive也是一样,可以使用压缩来节省我们的额MR的处理的网络带宽。为了支持多种压缩/解压缩算法,Hadoop引入编码/解码器,压缩配置参数:要在Hadoop中启用压缩,可以配置如下参数(mapred-site.xml文件中)...原创 2020-04-01 19:41:58 · 1361 阅读 · 0 评论 -
Hive Shell参数:
Hive 命令行: 语法结构: bin/hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e querystring>] [-S] 说明:1、 -i 从文件初始化HQL。2、 -e从命令行执行指定的HQL3、 -f 执行HQL脚本4、 -...原创 2020-03-31 19:04:52 · 234 阅读 · 0 评论 -
Hive查询语法
SELECT:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY col_list] [SOR...原创 2020-03-27 18:35:29 · 302 阅读 · 0 评论 -
Hive的基本操作
数据库的操作:创建数据库:create database if not exists myhive;use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse&...原创 2020-03-26 22:21:11 · 178 阅读 · 0 评论 -
Hive的基本概念与安装步骤
Hive简介:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL的查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端为什么使用Hive:采用类SQ...原创 2020-03-26 20:40:04 · 197 阅读 · 0 评论 -
数据仓库-Hive
数据仓库:基本概念:英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可理解为:面向分析的存储系统。主要特征:数据仓库是面...原创 2020-03-25 12:06:36 · 190 阅读 · 0 评论