
Hadoop
文章平均质量分 79
夏至&未至
后台开发,前端瞎倒腾,py爱好者,机器学习中...
展开
-
(十五)Hive 执行过程实例分析
目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释正文一、Hive...转载 2018-12-25 10:41:11 · 1200 阅读 · 0 评论 -
(十四)Hive的数据倾斜
目录1、什么是数据倾斜?2、Hadoop 框架的特性3、主要表现4、容易数据倾斜情况5、产生数据倾斜的原因6、业务场景(1)空值产生的数据倾斜(2)不同数据类型关联产生数据倾斜(3)大小表关联查询产生数据倾斜 正文1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性 A、不怕数据大,怕数...转载 2018-12-18 11:47:48 · 1308 阅读 · 0 评论 -
(十三)Hive的Shell操作
目录一、Hive的命令行1、Hive支持的一些命令2、语法结构3、示例二、Hive的参数配置方式1、Hive的参数配置大全2、Hive的参数设置方式正文一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell....转载 2018-12-18 11:02:32 · 1288 阅读 · 0 评论 -
(十二)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK
目录数据准备数据格式创建表玩一玩CUME_DIST说明查询语句查询结果 结果说明玩一玩PERCENT_RANK说明查询语句查询结果结果说明正文 这两个序列分析函数不是很常用,这里也练习一下。 数据准备数据格式cookie3.txtd1,user1,1000d1,user2,2000d1,user3,3000...转载 2018-12-17 15:17:18 · 1612 阅读 · 0 评论 -
(十一)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
目录概述数据准备数据格式创建表玩一玩NTILE说明查询语句查询结果比如,统计一个cookie,pv数最多的前1/3的天玩一玩ROW_NUMBER说明分组排序查询结果玩一玩RANK 和 DENSE_RANK查询语句查询结果ROW_NUMBER、RANK和DENSE_RANK的区别 正文概述本文中介绍前几个序列函数,N...转载 2018-12-17 14:16:30 · 730 阅读 · 0 评论 -
Ubuntu16.04环境下搭建Hadoop3.0.3伪分布式集群
最近刚好赶上双11腾讯促销,于是抢购了一个8核16G内存的云服务器,加上业务上需要用到hadoop,hive,于是想搭建搭建一个hadoop分布式集群,但是限于自己手头上服务器数量不多,因此打算先搭建一个hadoop伪分布式集群。 首先介绍一下我的安装环境: (1)java version (2)hadopp version 接下来,开始我的环境搭...原创 2018-11-14 23:32:36 · 2026 阅读 · 1 评论 -
HDFS简介
Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。HDFS拥有超大型的数据量,并提供更轻松地访问。为了存储这些庞大的数据,这些文件都存储在多台机器。这些文件都存储以冗余的方式来拯救系统免受可能的数据损失,在发生故障时。 HDFS也使得可用于并行处理的应用程序。HDFS的特点它适用于在分布式存储和处理。...翻译 2018-10-20 21:21:50 · 704 阅读 · 0 评论 -
Hadoop HDFS基本操作(ubuntu16.04 、Hadoop 3.0.3)
hdfs shell的基本操作以及hdfsWeb查看文件在安装好hadoop集群并成功的启动了hdfs之后,我们就可以利用hdfs对文件进行操作了,一下是对文件的一些基本操作特别注意:访问HDFS目录时,一定要带有/ 否则命令会出错!hdfs基本操作1、查询命令 hdfs dfs -ls / 查询/目录下的所有文件和文件夹 hdfs dfs -ls -R 以递归的...原创 2018-10-20 20:54:16 · 2303 阅读 · 0 评论 -
Hadoop三种运行模式(单机模式、伪分布式模式、全分布式集群模式)
Hadoop的三种运行模式(启动模式)1.1、单机模式(独立模式)(Local或Standalone Mode) -默认情况下,Hadoop即处于该模式,用于开发和调式。 -不对配置文件进行修改。 -使用本地文件系统,而不是分布式文件系统。 -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和R...原创 2018-10-20 20:38:12 · 15476 阅读 · 0 评论 -
(十六)Hive 优化策略
正文 一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据...转载 2018-12-25 10:49:12 · 1137 阅读 · 0 评论