
Python系列
数仓大山哥
路漫漫其修远兮,吾将上下而求索。
展开
-
Linux 源码安装 Python3
Linux 源码安装 Python3 下载源码包https://www.python.org/downloads/ 解压(以3.64版本为例) wget https://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz tar -zxvf Python-3.6.4.tgz cd Python-3.6.4 安装 ./configure --prefix=/home/hadoop/python3 make && make insta原创 2020-07-19 00:10:54 · 163 阅读 · 0 评论 -
在Hive中通过Java和Python实现UDF
原文链接:http://whlminds.com/2015/10/07/hive-udf-java-python/#Python%E5%AE%9E%E7%8E%B0UDF 当业务数据量过大,不能在关系型数据库中统计时,可以通过 Sqoop 导入到 HDFS 上进行统计,类似日志数据一样。导入到 HDFS 上数据,每一条记录通过\t或Ctrl+A等分割每一个字断,通过\n分割每一条记录。然后,通过建立 Hive 表指向 HDFS 对应的路径数据,对 HDFS 上的数据添加 Schema 定义,可...原创 2020-07-18 17:32:09 · 540 阅读 · 0 评论 -
Hive UDF Python
python udf存在的问题: 在数据清洗过程中,如果使用的是TransForm而不是UDF的话,因为Python是直接向系统申请资源的,而不是像ResourceManager申请资源,故会导致启动的Python脚本对内存和CPU的使用不可控,尤其是当启动多个Map时,因为一个map将启动一个Python因此,当同时运行的map有几十个时(测试集群较小),同时将尝试启动相同个数的python(资源够用的话仍然会启动几十个),且此时Map占用的内存是不会释放掉的他在一直等待P...原创 2020-07-18 15:44:25 · 474 阅读 · 0 评论 -
Python 使用virtualenv 开发环境虚拟化配置
开发Python应用程序的时候,系统安装的Python3只有一个版本:3.7。所有第三方的包都会被pip安装到Python3的site-packages目录下。 如果我们要同时开发多个应用程序,那这些应用程序都会共用一个Python,就是安装在系统的Python 3。如果应用A需要cx_Oracle 5.3,而应用B需要cx_Oracle 7.2 怎么办? 这种情况下,每个应用可能需要各自拥有...原创 2020-04-14 17:18:57 · 244 阅读 · 0 评论