前言
Hadoop Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能;可以将SQL语句转换为MapReduce任务进行运行,优点是学习成本低;可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。本文将详细介绍Tableau如何连接Hadoop Hive及其注意事项。
以下链接为博主精心整理的tableau学习教程,包含基础部分及高级教程,有需要的小伙伴可自行订阅。
tableau可视化数据分析高级教程
https://blog.youkuaiyun.com/wenyusuran/category_9596753.html
Tableau可视化数据分析知识点详解
https://blog.youkuaiyun.com/wenyusuran/category_9274958.html
1.Hadoop简介
Hadoop存在的理由是适合进行大数据的存储计算。Hadoop集群主要由两部分组成:一个是存储、计算“数据”的“库”,另一个是存储计算框架。
1.1 Hadoop分布式文件系统
Hadoop分布式文件系统是一种文件系统实现,类似于NTFS、EXT3、EXT4等。不过Hadoop分布式文件系统建立在更高的层次之上,在HDFS上存储的文件被分成块(每块默认为64M,比一般文件系统块大多分布在多台机器上,每块又会有多块冗余备份(默认为3),以增强文件系统的容错能力,这种存储模式与后面的MapReduce计算模型相得益彰。HDFS在具体实现中主要有以下几个部分:
1.名称节点(NameNode)
名称节点的职责在于存储整个文件系统的元数据,这是一个非常重要的角色。元数据在集群启动时会加载到内存中,元数据的改变也会写到磁盘的系统映像文件中,同时还会维护对元数据的编辑日志。HDFS存储文件时是将文件划分成逻辑上的块存储的,对应关系都存储在名称节点上,如果有损坏,整个集群的数据就会不可用。我们可以采取一些措施备份名称节点的元数据,如将名称节点目录同时设置到本地目录和一个NFS目录,这样任何元数据的改变都会写入两个位置做冗余备份。向两个目录冗余写入的过程是原子的,这样使用中的名称节点宕机后,我们可以使用NFS上的备份文件恢复文件系统。
2.第二名称节点(SecondaryNameNode)