python、pyspark连接hive/oracle

最新推荐文章于 2025-10-31 18:25:03 发布

原创

最新推荐文章于 2025-10-31 18:25:03 发布 · 1.5k 阅读

6 ·

CC 4.0 BY-SA版权

本文详细介绍了如何在Python和PySpark环境中配置并连接Oracle和Hive数据库，包括安装必要的客户端、配置环境变量、使用cx_Oracle和Impala进行Python数据库操作，以及通过jdbc方式在PySpark中读取Oracle数据。

前期准备

（写在前面，以下配置信息均是linux服务器操作配置。）

python连接时需要安装oracle客户端文件，pip安装cx_Oracle。
pyspark需要配置jdbc信息。

1.安装客户端

以下两个安装命令，需要获取服务器的root权限或sudo权限
rpm -ivh oracle-instantclient11.2-basic-11.2.0.4.0-1.x86_64.rpm （1）
rpm -ivh oracle-instantclient11.2-devel-11.2.0.4.0-1.x86_64.rpm （2）

如果安装未出现问题，则安装后，还需配置环境变量，输入 vim /etc/profile
进入环境变量配置页面，输入i，插入如下环境变量：

export ORACLE_HOME=/usr/lib/oracle/11.2/client64
export PATH=$PATH:$ORACLE_HOME/bin     
export LD_LIBRARY_PATH=$ORACLE_HOME/lib:/usr/lib:/usr/local/lib

最后按入Esc ，输入:wq！保存退出vim，然后运行 source /etc/profile 使配置生效。

2.安装cx_Oracle

用清华镜像直接进行pip安装：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple

或者可以在pypi网站下载对应python版本的cx_Oracle进行安装。

一、python

1.python连接oracle

import cx_Oracle
import pandas as pd
def

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

土豆土豆，我是洋芋

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python连接Hive(基于PyHive)

a6822342的博客

06-16

6万+

要想使用python连接hive，首先得下载以下几个包： pip install sasl pip install thrift pip install thrift-sasl pip install PyHive 但是我们在安装sasl的时候可能会报错，导致安装不上，这个时候就得去sasl下载地址下载我们所需要的sasl，记得要和我们python版本匹配，我这里选择下载的是sa...

windows环境下python连接hive

webpetter的博客

03-05

2197

pip install pure-sasl pip install thrift_sasl==0.2.1 --no-deps pip install thrift==0.9.3 pip install impyla FAQ: 报错1：ThriftParserError: ThriftPy does not support generating module with path in pro...

参与评论您还未登录，请先登录后发表或查看评论

PySpark 入门：分布式数据处理与 SQL 查询

2501_93877247的博客

10-31

304

PySpark 基于 Spark 引擎，适用于大数据分析。分布式处理：数据分布在多个节点上并行计算，提升效率。内存计算：减少磁盘 I/O，加速任务。多语言支持：除 Python 外，还兼容 Scala、Java 等。SQL 集成：通过 Spark SQL，可直接运行 SQL 查询。：Spark 的核心数据结构，表示不可变分布式数据集。DataFrame：结构化数据处理接口，类似 Pandas DataFrame，支持 SQL 操作。：入口点，用于创建和管理 Spark 应用。

本地PySpark连接远程Hive问题

qq_44881930的博客

04-07

452

【代码】本地PySpark连接远程Hive问题。

python 连接 hive

热门推荐

指甲的专栏

09-23

2万+

由于版本的不同，Python 连接 hive 的方式也就不一样。在网上搜索关键字 python hive 的时候可以找到一些解决方案。大部分是这样的，首先把hive 根目录下的$HIVE_HOME/lib/py拷贝到 python 的库中，也就是 site-package 中，或者干脆把新写的 python 代码和拷贝的 py 库放在同一个目录下，然后用这个目录下提供的 thrift 接口调用。示例

python 链接hive

doctorone的博客

03-15

412

1,配置hive：启动hiveserver2 在 bin/conf 下面touch 一个hive-site,xml: 添加 <?xml version="1.0" encoding="UTF-8" standalone="no"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

python读取oracle数据到hvie parquet_用spark从oracle导入数据到hive

weixin_39593469的博客

12-23

265

大概步骤：连接oracle，创建一个dataframe用来接收从oracle里面读取的数据。将dataframe的数据写入临时表。用hiveContext.sql语句将数据写入hive里面。这个程序其实对于学了spark的人来说很简单，直接上代码吧：package com.ctbri.cgs.oracle2Hiveimport org.apache.spark.sql.SparkSessionim...

pyspark连接clickhouse数据库的方式(其它数据库同样适用）

积跬步，慕至千里的博客

01-17

955

如何用pyspark连接clickhouse，本文通过测试，给出了示例案例。本文的连接方式，同样可以衍生适用于mysql、oracle等数据库。

#!/usr/bin/env python # @desc : todo 实现构建Oracle、Hive、SparkSQL的连接 __coding__ = "utf-8" __author__ = "itcast" # 导包 from auto_create_hive_table.cn.itcast.utils import ConfigLoader # 导入配置文件解析包 import cx_Oracle # 导入Python连接Oracle依赖库包 from pyhive import hive # 导入Python连接Hive依赖包 import os # 导入系统包 # 配置Oracle的客户端驱动文件路径 LOCATION = r"D:\\instantclient_12_2" os.environ["PATH"] = LOCATION + ";" + os.environ["PATH"] def getOracleConn(): """ 用户获取Oracle的连接对象：cx_Oracle.connect(host='', port='', username='', password='', param='') :return: """ oracleConn = None #构建Oracle连接对象 try: ORACLE_HOST = ConfigLoader.getOracleConfig('oracleHost') # 获取Oracle连接的主机地址 ORACLE_PORT = ConfigLoader.getOracleConfig('oraclePort') # 获取Oracle连接的端口 ORACLE_SID = ConfigLoader.getOracleConfig('oracleSID') # 获取Oracle连接的SID ORACLE_USER = ConfigLoader.getOracleConfig('oracleUName') # 获取Oracle连接的用户名 ORACLE_PASSWORD = ConfigLoader.getOracleConfig('oraclePassWord') # 获取Oracle连接的密码 # 构建DSN dsn = cx_Oracle.makedsn(ORACLE_HOST, ORACLE_PORT, ORACLE_SID) # 获取真正的Oracle连接 oracleConn = cx_Oracle.connect(ORACLE_USER, ORACLE_PASSWORD, dsn) # 异常处理 except cx_Oracle.Error as error: print(error) # 返回Oracle连接 return oracleConn def getSparkHiveConn(): """ 用户获取SparkSQL的连接对象 :return: """ # 构建SparkSQL的连接对象 sparkHiveConn = None try: SPARK_HIVE_HOST = ConfigLoader.getSparkConnHiveConfig('sparkHiveHost') # 获取Spark连接的主机地址 SPARK_HIVE_PORT = ConfigLoader.getSparkConnHiveConfig('sparkHivePort') # 获取Spark连接的端口 SPARK_HIVE_UNAME = ConfigLoader.getSparkConnHiveConfig('sparkHiveUName') # 获取Spark连接的用户名 SPARK_HIVE_PASSWORD = ConfigLoader.getSparkConnHiveConfig('sparkHivePassWord') # 获取Spark连接的密码 # 获取一个Spark TriftServer连接对象 sparkHiveConn = hive.Connection(host=SPARK_HIVE_HOST, port=SPARK_HIVE_PORT, username=SPARK_HIVE_UNAME, auth='CUSTOM', password=SPARK_HIVE_PASSWORD) # 异常处理 except Exception as error: print(error) # 返回连接对象 return sparkHiveConn def getHiveConn(): """ 用户获取HiveServer2的连接对象 :return: """ # 构建Hive的连接对象 hiveConn = None try: HIVE_HOST= ConfigLoader.getHiveConfig("hiveHost") # 获取Hive连接的主机地址 HIVE_PORT= ConfigLoader.getHiveConfig("hivePort") # 获取Hive连接的端口 HIVE_USER= ConfigLoader.getHiveConfig("hiveUName") # 获取Hive连接的用户名 HIVE_PASSWORD= ConfigLoader.getHiveConfig("hivePassWord") # 获取Hive连接的密码 # 构建一个Hive的连接对象 hiveConn = hive.Connection(host=HIVE_HOST,port=HIVE_PORT,username=HIVE_USER,auth='CUSTOM',password=HIVE_PASSWORD) # 异常处理 except Exception as error: print(error) # 返回Hive连接对象 return hiveConn # if __name__ == "__main__": # print(getSparkHiveConn()) # print(ConfigLoader.getSparkConnHiveConfig('sparkHiveHost')) # print(ConfigLoader.getSparkConnHiveConfig('sparkHivePort')) # print(ConfigLoader.getSparkConnHiveConfig('sparkHiveUName')) # print(ConfigLoader.getSparkConnHiveConfig('sparkHivePassWord')) 连接不上hivespark数据库是什么情况