前期准备
(写在前面,以下配置信息均是linux服务器操作配置。)
python连接时需要安装oracle客户端文件,pip安装cx_Oracle。
pyspark需要配置jdbc信息。
1.安装客户端
以下两个安装命令,需要获取服务器的root权限或sudo权限
rpm -ivh oracle-instantclient11.2-basic-11.2.0.4.0-1.x86_64.rpm (1)
rpm -ivh oracle-instantclient11.2-devel-11.2.0.4.0-1.x86_64.rpm (2)
如果安装未出现问题,则安装后,还需配置环境变量,输入 vim /etc/profile
进入环境变量配置页面,输入i,插入如下环境变量:
export ORACLE_HOME=/usr/lib/oracle/11.2/client64
export PATH=$PATH:$ORACLE_HOME/bin
export LD_LIBRARY_PATH=$ORACLE_HOME/lib:/usr/lib:/usr/local/lib
最后按入Esc ,输入:wq!保存退出vim,然后运行 source /etc/profile 使配置生效。
2.安装cx_Oracle
用清华镜像直接进行pip安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple
或者可以在pypi网站下载对应python版本的cx_Oracle进行安装。
一、python
1.python连接oracle
import cx_Oracle
import pandas as pd
def

本文详细介绍了如何在Python和PySpark环境中配置并连接Oracle和Hive数据库,包括安装必要的客户端、配置环境变量、使用cx_Oracle和Impala进行Python数据库操作,以及通过jdbc方式在PySpark中读取Oracle数据。
最低0.47元/天 解锁文章
6万+

被折叠的 条评论
为什么被折叠?



