
大数据
文章平均质量分 94
jdmike
机器学习/深度学习
展开
-
特征工程 | 信息价值IV与群体稳定性PSI
特征工程 | 信息价值IV与群体稳定性PSI关键词:特征筛选,信息量,稳定性文章目录特征工程 | 信息价值IV与群体稳定性PSI前言一、信息价值IV1.1 使用条件1.2 评价基准1.3 计算原理a. WOE计算b. IV计算二、群体稳定性PSI2.1 使用条件2.2 评价基准2.2 计算原理三、总结四、代码附录前言 基于IV与PSI的筛选方法主要应用于“金融风控”场景,该场景下,稳定性压倒一切,一套模型正式上线后往往很久才迭代一次。因此对于特征工原创 2022-03-27 21:15:47 · 1771 阅读 · 0 评论 -
阿里云Dataworks SQL速查表
SQL常用指令文章目录SQL常用指令一、速查表一、速查表原创 2021-08-29 23:26:31 · 2702 阅读 · 0 评论 -
大数据 | Pyspark基本操作
系列文章目录Apache Spark是新兴的一种快速通用的大规模数据处理引擎。它的优势有三个方面:通用计算引擎 能够运行MapReduce、数据挖掘、图运算、流式计算、SQL等多种框架;基于内存 数据可缓存在内存中,特别适用于需要迭代多次运算的场景;与Hadoop集成 能够直接读写HDFS中的数据,并能运行在YARN之上。Spark是用Scala语言编写的,所提供的API也很好地利用了这门语言的特性,当然作为数据科学的一环,它也可以使用Java和Python编写应用。这里我们将用Python给大原创 2021-06-17 21:36:59 · 960 阅读 · 4 评论