
python
文章平均质量分 65
jin_tmac
这个作者很懒,什么都没留下…
展开
-
xgboost 模型单调约束Monotonic Constraints
需要注意的是,在xgboost不同版本中,monotone_constraints的参数格式会有不同,最新版本是支持字典形式的:{“f0”: 1, “f2”: -1},我的版本是1.0.2,只支持str,也可直接设置为(0,-1,1)。mod_feature 中第1个特征不加约束;第2个特征约束为特征值越大,逾期概率就越低;第3个特征约束为特征值越大,逾期概率就越高。在风控模型中,由于业务考虑,特征会有非常强烈的先验,那么可以增加单调约束来提高模型的性能和可解释性,如。原创 2024-12-27 12:25:12 · 248 阅读 · 0 评论 -
Python模型上线pmml以及自定义函数转换(2)
常用特征转换有sklearn_pandas.DataFrameMapper、sklearn.compose.ColumnTransformer、sklearn.preprocessing.FunctionTransformer等,ColumnTransformer用法如下:2、能转换成pmml文件的特征转换但是functiontransformer在转换pmml的时候总是报Java错误,不支持自定义函数转换,因此目前函数转换主要是用到sklearn2pmml.preprocessing相关的特征预处理过原创 2023-11-28 18:58:53 · 1134 阅读 · 0 评论 -
pyspark基于python虚拟环境运行
1.背景目前大数据使用的是Amazon EMR集群,该集群可根据计算需求变化灵活扩展或收缩集群,就会存在一个问题:当spark任务提交之后,EMR集群会根据计算的需求进行扩展,新扩展的机器上python环境各不相同,并且每次扩展的机器ip不相同(不是同一台机器),对某些第三方包,例如:pandas 还会依赖numpy,并且对版本还有一定要求,必须大于15.4;此时python依赖的冲突就会导致spark任务执行失败。2.解决方案鉴于以上问题,通过搭建独立的Python运行环境可以解决以上问题,同时还可转载 2022-05-26 15:05:25 · 1441 阅读 · 0 评论 -
python变量衍生apply速度优化及改进
python数据分析生成衍生变量的时候,使用apply的方法速度很慢,尤其是遇到批量生成好几千变量,且数据量比较大的情况下。N = 10A_list = np.random.randint(1, 100, N)B_list = np.random.randint(1, 100, N)df = pd.DataFrame({'A': A_list, 'B': B_list})df.head()# A B# 0 78 50# 1 23 91# 2 55 62# 3 8原创 2021-08-13 17:28:08 · 959 阅读 · 0 评论 -
Python模型上线pmml以及自定义函数转换(1)
通常xgb或lgb模型通过pmml上线都比较简单,但是逻辑回归模型因为涉及到woe的转换,就要通过自定义转换函数的方式来实现。1、常规转换-模型训练好之后立即转换import joblibfrom sklearn2pmml import PMMLPipeline,sklearn2pmml# 保存模型 python可读入def dump(clf, fp='clf'): joblib.dump(feature_names_2, 'feature_' + fp +'.pkl') jo原创 2021-07-09 16:32:44 · 7710 阅读 · 8 评论 -
Python变量分箱--woe值单调分箱
最近上传了一个变量分箱的方法到pypi,这个包的主要有以下说明:缺失值单独一箱,不论缺失的数量多少;生成的分箱woe值是单调的,后续有时间会迭代U型分箱的版本;会有分箱最小样本数占比,类似决策树的最小叶节点占比;分箱成功的变量才会保留,有可能失败的情况是找不出同时满足上述2和3的分箱;具体的变量分箱原理见之前的博客。可以通过pip install woe-linear-bin 安装...原创 2019-10-28 14:15:06 · 7616 阅读 · 11 评论 -
Python matplotlib应用
matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。 import matplotlib.pyplot as plt 1、plt.figure(figsize=(8, 6)) 设置初始图片的属性 2、 plt.xlabel(‘gamma’) plt.ylabel(‘C’) 设置x,y轴的名字 3、plt....原创 2018-08-29 15:13:04 · 491 阅读 · 0 评论 -
python开发环境的设置(anaconda+pycharm)
Anacondaanaconda是用python 做data scientific development的正确姿势。这里先引用下其概述: Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进...原创 2018-04-17 14:42:16 · 2206 阅读 · 0 评论 -
PANDAS和SAS的代码使用习惯比较
转载两篇博文关于PANDAS和SAS的代码使用习惯比较: 1、PANDAS和SAS的代码使用习惯比较2、pandas 数据规整转载 2018-04-11 16:52:23 · 531 阅读 · 0 评论 -
python解析json数据
在用json.load()读取json数据时,with open(r'E:\XX项目\xxx\{}'.format(file_name1[fi]), 'r') as f: data1 = json.load(f)报如下错误: UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xac python无法把一些字符Decode成...原创 2018-04-16 17:14:23 · 267 阅读 · 0 评论