
机器学习算法
文章平均质量分 56
大范先生
这个作者很懒,什么都没留下…
展开
-
线性模型---机器学习
线性模型用作两类学习任务:回归和分类,回归用到线性回归模型,一般是连续值的预测,输出结果为连续值,而分类用的是逻辑斯特回归模型,一般地输出的是离散值。原创 2018-10-19 15:40:02 · 234 阅读 · 0 评论 -
模型融合———预测贷款用户是否会逾期
一、学习要求用目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分二、基础知识我们使用 m 个算法,分别求出对于我们数据而言,相对的预测结果 P1、P2 … Pm,我们不直接使用这三个预测结果进行综合来得到预测结果。而是将这个 m 个预测结果作为输入,再添加一层算法 Meta-Classifer,训练一个新的模型,用这个新的模型的输出作为我们最终的预测结果。...原创 2018-11-26 21:11:54 · 899 阅读 · 0 评论 -
特征筛选———贷款用户是否会逾期
一、学习要求分别对前面预处理的数据使用IV值和随机森林进行特征筛选二、基础知识1、IV值计算过程是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度IV 值的取值范围是[0, ∞ ),但一般具有中等IV值的变量来进行模型开发,如下所示IV值预测能力<0.02无用0.02-0.1弱预测0.1-0.3中等预测0.3-...原创 2018-11-29 10:23:19 · 422 阅读 · 0 评论 -
模型优化———预测贷款用户是否逾期
一、学习要求对一份金融数据,我们在之前的博客中用各种模型完成了预测贷款用户是否会逾期的工作,接下来我们要介绍网格搜索和交叉验证的方法,来提高模型的准确率。二、基础知识什么是网格搜索通过循环遍历,尝试每一种可能的参数选择,表现最好的参数就是最终的结果。以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,...原创 2018-11-26 11:36:15 · 864 阅读 · 0 评论 -
使用Xgboost和lightgbm实现对贷款用户逾期预测
一、背景及目标根据提供的金融数据,分别使用xgboost和lightgbm两种算法预测贷款用户是否会逾期。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,分别采用xgboost和lightgbm进行模型训练,预测结果以及输出评分。三、数据预处理一共4754行,89列(除去首行、首列)直接删除,对模...原创 2018-11-17 14:28:59 · 4397 阅读 · 2 评论 -
有关项目:预测贷款用户是否逾期的特征处理
这是对前一个项目:预测贷款用户是否逾期的数据进行提前准备工作,即特征处理,主要包括数据类型转换和缺失值处理。一、特征处理对拿到的金融数据进行直观分析,删除无关特征,避免过拟合# 删除无关信息dataset = dataset.drop(["custid","trade_no","bank_card_no","id_name","first_transaction_time","lates.原创 2018-11-22 18:52:33 · 1823 阅读 · 0 评论 -
使用SVM和决策树实现客户贷款逾期分析
一、背景及目标 根据提供的金融数据,分别使用SVM和决策树两种算法预测贷款用户是否会逾期。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,分别采用SVM和决策树进行模型训练,预测结果以及输出评分。三、数据预处理一共4754行,89列(除去首行、首列)直接删除,对模型影响不大的数据及特征,比如固...原创 2018-11-16 19:56:56 · 1931 阅读 · 0 评论 -
使用五种常用机器学习算法估计贷款用户是否逾期并对比评分
一、背景及目标根据提供的金融数据,分别使用逻辑回归、决策树、SVM、xgboost以及LightGBM这5种算法实现对贷款用户是否会逾期的预测估计,表格中,status是标签:0表示未逾期,1表示逾期。最后按不同的标准进行模型的评估。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,进行模型训练,预测结果以及...原创 2018-11-20 16:48:41 · 3033 阅读 · 2 评论 -
逻辑回归实现客户逾期分析
一、【 目标】构建逻辑回归模型进行预测用户是否逾期二、【 任务】写博客或者写笔记或者word呈现任务遇到的问题参考资料代码完成时间:11.14-11.15三、【 原始数据】数据:金融数据任务:我们要做的是预测贷款用户是否会逾期,标签说明:表格中,status是标签:0表示未逾期,1表示逾期。四、【 数据预处理】一共4754行,89列(除去首行、首列)直接删除,对...原创 2018-11-15 21:10:44 · 2061 阅读 · 0 评论 -
word2vec实现
TensorFlow实现word2vec# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport osimport ran...原创 2018-12-14 14:21:22 · 503 阅读 · 0 评论