
python基础
文章平均质量分 58
蕊在花中羞涩
起点低,当下净,回头脏,平常路
展开
-
【风控策略开发】单维度策略开发
原创 2024-07-13 18:10:43 · 150 阅读 · 0 评论 -
金控风控:Python实现基于数据技巧的拒绝推断
在对精度较为敏感的风控系统中,硬截断法显然是不合理的。因此在实际项目中,通常使用多个差异化较大的模型进行交叉筛选,将多模型评分均较低的样本作为负样本。一种常见的思路是,直接使用KGB模型在拒绝样本上做预测,并将低分样本(如分数最低的20%样本)认为是负样本,带入模型进行估 计,其余拒绝样本全部视为灰色样本,不予考虑。利用KGB模型进行打分,按照逾期概率降序排列,选择截断点 (cut-off)进行截断后,仅将截断点以下的蓝色部分作为负样本带入模 型进行学习,从而修正模型的偏差。根据KGB数据训练KGB模型。原创 2024-06-21 21:57:29 · 516 阅读 · 0 评论 -
机器学习算法:K均值算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。K均值聚类算法是一种广泛使用的聚类分析方法,其基本原理是将数据集划分为K个簇,每个簇由其质心(即簇中所有点的中心)描述。该算法通过迭代优化过程,将数据集中的每个点分配到最近的质心所形成的簇中,并更新每个簇的质心,直到质心不再发生变化或达到预设的终止条件。原创 2024-06-12 21:19:21 · 498 阅读 · 0 评论 -
机器学习算法:K最近邻算法
K最近邻(KNN,K-NearestNeighbor)分类算法是指数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。KNN算法的核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时,只与极少量的相邻样本有关。原创 2024-06-12 21:14:55 · 607 阅读 · 0 评论 -
数据挖掘模型——离群点检测——python代码
b:考虑到簇具有不同的密度,可以度量簇到原型的相对距离,相对距离是点到质心的距离与簇中所有点到质心的距离的中位数之比。(2)基于原型的聚类,该过程首先聚类所有对象,然后评估对象属于簇的程度,可用对象到它的簇中心的距离来度量属于簇的程度。二维、三维的数据可做散点图观察,大数据不适用,对参数选择敏感,具有全局阙值,不能处理具有不同密度区域的数据集。对于基于原型的聚类,有两种方法评估对象属于簇的程度(离群点得分)a:度量对象到簇原型的距离,并用它作为该对象的离群点得分。原创 2024-06-05 10:09:10 · 640 阅读 · 0 评论 -
数据挖掘模型——arima时序模型——python代码
时间序列变化主要受长期趋势(T)、季节变动(S)、周期变动(C)和不规则变动(e)影响。根据序列特点,可构建:【加法模型:xt=Tt+St+Ct+εt】【乘法模型:xt=Tt*St*Ct*εt】非平稳时间序列分析--ARIMA模型。原创 2024-06-05 10:06:40 · 435 阅读 · 0 评论 -
数据挖掘模型——Aprior算法关联规则——python代码
Aprior算法主要思想是:找出存在于事务数据集中的最大的频繁项集,在利用得到的最大频繁项集与预先设定的最小置信度阙值生成强关联规则。已知项集的支持度计数,则规则A→B的支持度和置信度易从所有事务计数、项集A和项集A U B的支持度计数推出。项集A的支持度计数是事务数据集中包含项集A的事务个数,简称为项集的频率或计数。最小支持度:衡量支持度的一个阙值,表示项目集在统计意义上的最低重要性。若项集I的相对支持度满足预定义的最小支持度阙值,则I是频繁项集。项集A发生,则项集B发生的概率为关联规则的置信度。原创 2024-06-05 10:00:50 · 312 阅读 · 0 评论 -
数据挖掘模型——K-Means聚类算法——python代码
K-Means算法,一般需先度量样本间(欧几里得距离、曼哈顿距离、闵可夫斯距离) ,样本与簇间(样本到簇中心的距离)及簇与簇间距离(簇中心距离 )。K-Means算法是典型的基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用距离作为相似性评价指标,即认为两个对象的距离越近,其相似度越大。使用误差平方和SSE作为度量聚类质量的目标函数,对两种不同的聚类结果,选择误差平方和较小的分类结果。d:与前一次计算得到的K个聚类中心比较,若聚类中心发生变化,转过程2,否则,转过程5;原创 2024-06-05 09:57:58 · 826 阅读 · 0 评论 -
数据挖掘模型——BP神经网络——python代码
逆向传播时,将输出误差按某种子形式,通过隐层向输出层返回,并分摊给隐层的节点与输入层节点,获得各层单元的参考误差,作为修改各单元权值的依据。输入样本数据,网络正向传播,得到中间层与输出层的值,比较输出层的值与教师信号的误差,用误差函数判断误差是否小于误差上限。算法开始时,给定学习次数上限,初始化学习次数为0,对权值和阙值赋予小的随机数,一般在[-1,1]。BP算法的学习过程由:信号的正向传播及误差的逆向传播组成。若输出层节点未能得到期望的输出,则转入误差的逆向传播。原创 2024-06-05 09:56:35 · 477 阅读 · 0 评论 -
数据挖掘模型——逻辑回归模型——python代码
b:递归特征消除:主要思想是反复构建模型,选出最好的(最差的)特征(可根据系数来选),将选出的特征放在一边,在剩余的特征里重复这个过程,直至遍历所有特征。c:稳定性:一种基于二次抽样和选择算法相结合较新的方法,主要思想是:在不同的数据子集和特征的子集上运行特征选择算法,不断重复,最终汇总特征选择结果。该过程中特征被消除的次序即是:特征的排序。因此,也是一种寻找最优特征子集的贪心算法。a:通过F检验给出各个特征的F值和p值,筛选变量(选择F值大或p值小的特征);原创 2024-06-05 09:52:49 · 376 阅读 · 0 评论 -
数据挖掘模型——决策树ID3模型——python代码
(3)若子样本集的类别属性只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回调用处;决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性不同取值将其划分为若干个子集。决策树处理过程:对分类问题,应从已知类标记的训练样本中学习并构造出决策树,自上而下,分开进行解决。(2)选择信息增益最大的属性作为测试属性,把测试属性取值相同的样本划分为同一个子样本集;决策树构造的核心问题:在每一步如何选择适当的属性对样本做拆分。原创 2024-06-05 09:54:33 · 305 阅读 · 0 评论 -
python----项目中模块与包
模块的导入import 模块名调用: 模块名.功能名from 模块名 import 功能名调用: 功能名from 模块名 import *import 模块名 as 别名from 模块名 import 功能名 as 别名# Python中的模块就是可以将别人写好的,或者自己以前写好的功能直接导入新的文件或工程内,导入后可以直接调用 例如 : random time os# 我们没有实现模块中的功能,但是我们讲模块导入后就可以使用该功能,类似于继承# 导入...原创 2021-08-08 06:29:23 · 215 阅读 · 0 评论 -
python---处理异常及自定义异常
异常捕获 使用try和except可以捕获异常,也就是在出现异常后不会将代码终止运行,而是执行except中的代码处理异常 # 异常捕获:通过代码将可能出现异常的文件放入try中,然后如果出现异常就执行except中的命令'''格式:try: 可能出现异常的代码except: 如果出现了异常,就执行其中的代码'''# 需求:读取文件,如果文件不存在,则以写入方式打开# 如果我们try中的代码出现了异常,则执行except中的命令# 如果我们try中的代码没...原创 2021-08-08 06:27:17 · 366 阅读 · 0 评论 -
python----面向对象基础
面向对象的思维方式 面向对象,是一个编程思想,并不是一项技术,重在理解 面向过程:一步一步的完成功能:自上而下,逐步细化 面向对象:找到或者构造一个可以完成功能的主体:找到实体,功能完备 类和对象 类就是一系列拥有相同或相似功能的对象的集合,或者说类就是一系列事物的统称 对象就是类的具体的表现形式 1、手机是对象还是类?2、苹果手机,是对象还是类?3、iPhonex 手机是对象还是类?4、我手里的苹果手机,是对象还是类?类的定义 经典类原创 2021-08-05 20:12:08 · 90 阅读 · 0 评论 -
python--文件的相关操作
1、文件的基本操作 文件打开的格式: file = open(文件路径,读写模式) 文件路径:可以写相对路径,也可以写绝对路径 读写模式:r(读取) w(写入) a(追加) 文件打开后,必须关闭,否则持续消耗服务器性能。 # 文件读写,在使用的时候和我们正常使用文件一样# 1.打开文件# 2.操作文件# 3.关闭文件# 打开文件使用open函数即可# 格式: open(file_name(文件路径), mode(原创 2021-08-05 20:10:17 · 128 阅读 · 0 评论 -
python公共方法及公共函数
1、公共方法 + 加法运算适用于所有的基础数据类型(int float bool) 加法运算所有两侧要是同种数据类型 加法运算再容器类型中是拼接的意思,不是相加计算值 # +法运算,都可以用于哪些数据类型之间# int float bool 肯定可以用于加法运算,不再赘述print(1 + 12.3) # 13.3# str 可以相加么? 可以str1 = 'hello'str2 = ' python'# 字符串相加,可以快速将.原创 2021-08-05 20:08:50 · 905 阅读 · 0 评论