以可视化的方式来打开大数据，tableau是如何连接到Hadoop hive的？

最新推荐文章于 2025-05-12 03:19:40 发布

文宇肃然

最新推荐文章于 2025-05-12 03:19:40 发布

阅读量7.1k

点赞数 5

CC 4.0 BY-SA版权

文章标签：大数据 hadoop tableau hive

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/114869393

本文详细介绍了如何使用Tableau连接到Hadoop Hive进行大数据分析，涵盖了Hadoop的基本概念，连接Hadoop Hive的必备条件，包括Hive版本、驱动程序和启动服务，以及连接Hadoop Hive的主要步骤，特别强调了日期/时间数据处理和已知限制。此外，还提供了Tableau连接Cloudera、Hortonworks和MapR Hadoop Hive的具体操作指南。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

Hadoop Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务进行运行，优点是学习成本低；可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。本文将详细介绍Tableau如何连接Hadoop Hive及其注意事项。

以下链接为博主精心整理的tableau学习教程，包含基础部分及高级教程，有需要的小伙伴可自行订阅。

tableau可视化数据分析高级教程

https://blog.youkuaiyun.com/wenyusuran/category_9596753.html

Tableau可视化数据分析知识点详解

https://blog.youkuaiyun.com/wenyusuran/category_9274958.html

1.Hadoop简介

Hadoop存在的理由是适合进行大数据的存储计算。Hadoop集群主要由两部分组成：一个是存储、计算“数据”的“库”，另一个是存储计算框架。

1.1 Hadoop分布式文件系统

Hadoop分布式文件系统是一种文件系统实现，类似于NTFS、EXT3、EXT4等。不过Hadoop分布式文件系统建立在更高的层次之上，在HDFS上存储的文件被分成块(每块默认为64M，比一般文件系统块大多分布在多台机器上，每块又会有多块冗余备份(默认为3)，以增强文件系统的容错能力，这种存储模式与后面的MapReduce计算模型相得益彰。HDFS在具体实现中主要有以下几个部分：

1.名称节点(NameNode)

名称节点的职责在于存储整个文件系统的元数据，这是一个非常重要的角色。元数据在集群启动时会加载到内存中，元数据的改变也会写到磁盘的系统映像文件中，同时还会维护对元数据的编辑日志。HDFS存储文件时是将文件划分成逻辑上的块存储的，对应关系都存储在名称节点上，如果有损坏，整个集群的数据就会不可用。我们可以采取一些措施备份名称节点的元数据，如将名称节点目录同时设置到本地目录和一个NFS目录，这样任何元数据的改变都会写入两个位置做冗余备份。向两个目录冗余写入的过程是原子的，这样使用中的名称节点宕机后，我们可以使用NFS上的备份文件恢复文件系统。

2.第二名称节点(SecondaryNameNode)