- 博客(13)
- 收藏
- 关注
原创 7天 for Python———第二天
学习内容11.了解元祖(tuple),并总结和list的区别 (第四章) 元素不可修改的列表就是元组,使用圆括号来标识,也是使用索引访问元素。dimensions = (200,50,100,20,5)print(dimensions[0])200print(dimensions[3])20元组与列表的区别 1)元组和列表很类似,差别就在于元组的元素不可修改。 ...
2019-01-05 17:31:52
334
原创 7天 for Python———第一天
使用的教材为《Python编程从入门到实践》【Day one】学习任务11.使用anaconda搭建python的环境(跳过第一章,去网络上搜索anaconda3的教程)windows操作系统下安装python3.7版本2.完成系统变量的设置,通过在命令行输入python3检验一下python3有没有装成功。3.解释什么是变量,变量命名规则。(第二章)一个操作对应的对象我们称之为...
2019-01-03 19:03:49
315
原创 中文文本实现word2vec
输入为中文文本,采用网上下载的小说,训练词向量首先处理文本,输入小说原txt文件,生成data,count,dictionary和reversed_dictionary文件import jiebaimport reimport collectionsimport osfilename="D:\wordforchinese.txt"vocabulary_size = 100d...
2018-12-14 18:32:33
1173
原创 word2vec实现
TensorFlow实现word2vec# encoding=utf8 from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport collectionsimport mathimport osimport ran...
2018-12-14 14:21:22
501
原创 特征筛选———贷款用户是否会逾期
一、学习要求分别对前面预处理的数据使用IV值和随机森林进行特征筛选二、基础知识1、IV值计算过程是根据该特征所命中黑白样本的比率与总黑白样本的比率,来对比和计算其关联程度IV 值的取值范围是[0, ∞ ),但一般具有中等IV值的变量来进行模型开发,如下所示IV值预测能力<0.02无用0.02-0.1弱预测0.1-0.3中等预测0.3-...
2018-11-29 10:23:19
420
原创 模型融合———预测贷款用户是否会逾期
一、学习要求用目前评分最高的模型作为基准模型,和其他模型进行stacking融合,得到最终模型及评分二、基础知识我们使用 m 个算法,分别求出对于我们数据而言,相对的预测结果 P1、P2 … Pm,我们不直接使用这三个预测结果进行综合来得到预测结果。而是将这个 m 个预测结果作为输入,再添加一层算法 Meta-Classifer,训练一个新的模型,用这个新的模型的输出作为我们最终的预测结果。...
2018-11-26 21:11:54
893
原创 模型优化———预测贷款用户是否逾期
一、学习要求对一份金融数据,我们在之前的博客中用各种模型完成了预测贷款用户是否会逾期的工作,接下来我们要介绍网格搜索和交叉验证的方法,来提高模型的准确率。二、基础知识什么是网格搜索通过循环遍历,尝试每一种可能的参数选择,表现最好的参数就是最终的结果。以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,...
2018-11-26 11:36:15
854
原创 有关项目:预测贷款用户是否逾期的特征处理
这是对前一个项目:预测贷款用户是否逾期的数据进行提前准备工作,即特征处理,主要包括数据类型转换和缺失值处理。一、特征处理对拿到的金融数据进行直观分析,删除无关特征,避免过拟合# 删除无关信息dataset = dataset.drop(["custid","trade_no","bank_card_no","id_name","first_transaction_time","lates.
2018-11-22 18:52:33
1816
原创 使用五种常用机器学习算法估计贷款用户是否逾期并对比评分
一、背景及目标根据提供的金融数据,分别使用逻辑回归、决策树、SVM、xgboost以及LightGBM这5种算法实现对贷款用户是否会逾期的预测估计,表格中,status是标签:0表示未逾期,1表示逾期。最后按不同的标准进行模型的评估。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,进行模型训练,预测结果以及...
2018-11-20 16:48:41
3019
2
原创 使用Xgboost和lightgbm实现对贷款用户逾期预测
一、背景及目标根据提供的金融数据,分别使用xgboost和lightgbm两种算法预测贷款用户是否会逾期。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,分别采用xgboost和lightgbm进行模型训练,预测结果以及输出评分。三、数据预处理一共4754行,89列(除去首行、首列)直接删除,对模...
2018-11-17 14:28:59
4388
2
原创 使用SVM和决策树实现客户贷款逾期分析
一、背景及目标 根据提供的金融数据,分别使用SVM和决策树两种算法预测贷款用户是否会逾期。二、任务分析导入数据后,首先,由于数据中存在缺失值,因此需要对缺失值数据进行预处理。其次,对明显与模型无关的特征进行删除。最后,分别采用SVM和决策树进行模型训练,预测结果以及输出评分。三、数据预处理一共4754行,89列(除去首行、首列)直接删除,对模型影响不大的数据及特征,比如固...
2018-11-16 19:56:56
1929
原创 逻辑回归实现客户逾期分析
一、【 目标】构建逻辑回归模型进行预测用户是否逾期二、【 任务】写博客或者写笔记或者word呈现任务遇到的问题参考资料代码完成时间:11.14-11.15三、【 原始数据】数据:金融数据任务:我们要做的是预测贷款用户是否会逾期,标签说明:表格中,status是标签:0表示未逾期,1表示逾期。四、【 数据预处理】一共4754行,89列(除去首行、首列)直接删除,对...
2018-11-15 21:10:44
2054
原创 线性模型---机器学习
线性模型用作两类学习任务:回归和分类,回归用到线性回归模型,一般是连续值的预测,输出结果为连续值,而分类用的是逻辑斯特回归模型,一般地输出的是离散值。
2018-10-19 15:40:02
232
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人