windows环境下，python+impyla+hive2

最新推荐文章于 2021-04-07 23:56:08 发布

原创

最新推荐文章于 2021-04-07 23:56:08 发布 · 1.1k 阅读

3 ·

CC 4.0 BY-SA版权

本文介绍了在Windows环境中，使用Python通过impyla库连接Hive2服务器的详细步骤，包括配置Hiveserver2和解决连接过程中的问题。主要内容涉及修改hdfs-site.xml、core-site.xml、hive-site.xml配置文件，启动Hiverserver2，以及使用Beeline验证连接，并给出了遇到的权限问题解决方案和Python连接Hive的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写在前面：我的需求是使用python连接hive数据库，读取数据库中的数据。首先，我自己搭建了hadoop集群，包含三个节点，安装了hive数据库，导入了一些数据。在这过程中，遇到了很多错误，查找了很多文档，现在简单整理一下思路方便以后查找。

1.环境说明：

win10

python编译器：PyCharm

集群环境：

CentOS 6.7

hadoop 2.7.3

hive 2.3.2

2.大致步骤

总体来说分为两个步骤。（1）配置hiveserver2（2）基于implay连接hive数据库，读取数据

2.1配置hiveserver2

（1）修改hdfs-site.xml、core-site.xml、hive-site.xml。分别在这三个配置文件中添加如下内容：

hdfs-site.xml:表示启用 webhdfs

<property>
     <name>dfs.webhdfs.enabled</name>
     <value>true</value>
</property>

core-site.xml:

<property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
 </property>
<property>
        <name>hadoop.proxyuser.root.groups</name>