- 博客(34)
- 资源 (1)
- 收藏
- 关注
原创 第四部分:模型融合
第三部分中的建模阶段,在不调参的情况下模型精度已经很高了,但是在使用5折交叉验证进行模型性能评估的时候出现报错:KeyError: "None of [Int64Index([ 0, 1, 2, 3, 4, 6, 7, 9, 10,\n 12,\n ...\n 34928, 34929, 34930, 34931, 34932, 34933, 34934, 349
2020-09-27 22:28:55
732
原创 金融风控-Task4-建模与调参
逻辑回归,需要预先处理缺失值和异常值【可参考task3特征工程】;树模型,数据不需要预处理,不需要归一化,不需要处理缺失数据;鉴于task3基本没有对数据进行细致的处理,所以这里先用树模型进行建模。模型决定好了,需要对数据集进行划分。这里我是利用自己手头的数据进行分析的。首先,需要以4:1的比例划分训练集和验证集,然后再对训练集进行子训练集和子测试集的划分。关于4:1的比例进行划分,本来是借助excel的RANDBETWEEN(1,max值)进行划分,但看的教程上提到一点:关于数据..
2020-09-24 22:40:42
228
原创 金融风控-Task3-特征工程
首先有一个疑问,关于特征工程部分,是否需要把上面的方法都处理一遍,比如对于有些优秀的树模型对数据处理的要求就相对比较少,所以还是建议先把后续建模阶段的要求理清楚再针对性下手比较好。这里主要写自己目前在研究的几个点:1、数据分箱特征分箱的目的:从模型效果上来看,特征分箱主要是为了降低变量的复杂性,减少变量噪音对模型的影响,提高自变量和因变量的相关度。从而使模型更加稳定。数据分桶的对象:(1)将连续变量离散化(2)将多状态的离散变量合并成少状态分箱的原因:数据的特征内的值跨度可能比较大,对.
2020-09-21 22:54:21
531
原创 DCIC-A城市巡游车与网约车运营特征对比分析-2-可视化
接前述,数据读取上次遗留下两个问题:1、该案例的数据集过多 ,如果每次读一个数据的部分行(比如10000行),那在拼接所有数据集的时候也是每个数据只读10000行吗??回答:虽然我们通过更改数据类型,使得原始数据的大小有所改变,但如果想要把所有的数据集合拼接读取出来,也是依旧对内存有一定要求的。目前存在的一个疑问是:如果想把所有数据拼接起来,大家是用的concat吗?但是concat每次只能拼接两个表,所以如果表多的话,就反复concat吗?2、对于表字段含义的理解,我们接下来将以tax
2020-09-19 21:09:59
529
1
原创 金融风控--2-数据分析
2.1 学习目标数据基本情况:缺失值、异常值变量间相互关系、变量与预测值之间的存在关系2.2 具体内容总体了解:shape;info();describe()缺失值+唯一值两种类型数据:类别型数据和数值型数据(离散数值型和连续数值型)数据间相关关系(特征与特征之间+特征与目标变量之间)用pndas_profiling生成数据报告2.3 代码部分2.3.4查看缺失值的意义:纵向了解: 存在nan的字段,并把nan的个数打印,主要目的是在于查看某一列nan存在的个数是否真的很大
2020-09-17 21:02:59
493
原创 金融风控之贷款违约预测
task1赛题理解1.1 学习目标理解赛题数据和目标,清楚评分体系。报名+下载数据+提交示例结果1.2了解赛题赛题概况数据概况预测指标分析赛题1.2.1 赛题概况任务:预测金融风险数据来源:某信贷平台的贷款记录1.2.2 数据概况数据总量:120w+字段数:47个(15个为匿名变量)(匿名变量:即未告知数据列所属的性质的特征列)训练集以及测试集的划分:训练集:80万条测试集A: 20万条测试集B:20万条脱敏字段:employmentTitle、purpose、
2020-09-16 17:37:12
420
转载 分类算法与金融风控预测类常见评估指标
分类算法常见的评估指标:1、混淆矩阵(Confuse Matrix )(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive)(2)若一个实例是正类,并且被预测为负类,即为假负类FN(False Negative)(3)若一个实例是负类,并且被预测为正类,即为假正类FP(False Positive)(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative)2、准确率(Accuracy)常用的评价指标,但是不适合[于样本不均衡的情况。
2020-09-16 16:43:16
848
转载 DCIC-A城市巡游车与网约车运营特征对比分析-任务1
一、背景赛题说明:出租车作为城市客运交通系统的重要组成部分,以高效、便捷、灵活等优点深受居民青睐。出租车每天的运营中会产生大量的上下车点位相关信息,对这些数据进行科学合理的关联和挖掘,对比在工作日以及休息日、节假日的出租车数据的空间分布及其动态变化,对出租车候车泊位、管理调度和居民通勤特征的研究具有重要意义。出租车/网约车:上下车地点挖掘;出租车/网约车:不同日期的空间变化;出租车/网约车:泊车和调度问题;赛题任务:根据赛事方提供的出租车(包括巡游车和网约车)GPS和订单数据一综合应用
2020-09-08 20:43:44
651
3
原创 安装Pytorch错误记录:CondaHTTPError: HTTP 000 CONNECTION FAILED for url
一、错误:二、解决办法:三、来源
2020-05-29 09:26:47
1044
2
转载 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task5模型融合]之stacking
文章目录什么是stacking?什么是stacking?简单来说,stacking就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。...
2020-05-09 11:50:23
269
原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]
一、特征工程(FS)二、task3代码-feature engineering三、问题四、总结五、Ref.
2020-05-02 10:47:16
408
转载 【Datawhale】[task3]3.3代码示例
3.3 代码示例3.3.0导入数据3.3.1 利用箱线图删除异常值3.3.2特征构造3.3.3特征筛选1)过滤式2)包裹式3)嵌入式
2020-05-02 10:45:57
539
原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task2 数据分析]
文章目录一、EDA二、task2代码-EDA三、问题四、总结
2020-04-30 16:26:12
567
原创 【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task1 赛题理解]
[task1 赛题理解]目录一、理解框架二、1.3代码示例三、遇到bug汇总及解决方法:四、总结五、Ref.
2020-04-29 10:18:31
713
1
原创 学习Markdown中的数学公式
学习Markdown中的的数学公式目录一、学习1、数学公式的基本用法:2、一些常用符号二、举例进行练习三、推荐速查文档
2020-04-28 11:44:49
437
原创 200213学习记录
magics %% 应按惯例从第一行开始-如图1而非图2图1图2关于相关性过滤中的卡方过滤,需要保证每个特征的值都是非负的,可采取的措施有:归一化,使得特征值均处于某个区间范围内。关于卡方过滤中所需特征数目K的确定。卡方检验的本质是推测两组数据之间的差异,其检验的原假设是“两组数据是相互独立的”。卡方检验返回卡方值和P值两个统计量,其中卡方值很难界定有效的范围,而P值,我们一般用0.0...
2020-02-13 21:06:40
97
原创 服务器下jupyter notebook 远程访问,OSError: [Errno 99]Cannot assign requested address问题
遇到这个问题,重新在装jupyter notebook是最好的方法了,历经一个半小时的折腾后的感言。。。
2020-02-12 11:32:13
1266
原创 解决pip (package location).exceptions.ReadTimeoutError
原因分析:在下载package的时候,由于国内网络原因,python包的下载速度比较慢,进而导致超时解决方案:在 pip的时候控制超时即可pip install --default-timeout=1000 +(package location)re:https://yq.aliyun.com/articles/619208...
2020-01-28 17:55:53
166
转载 安装xgboost遇到问题
1、whlhttps://blog.youkuaiyun.com/bassqmyd/article/details/808297902、git安装https://link.zhihu.com/?target=https%3A//wang-shuo.github.io/2017/02/21/%25E5%259C%25A8Windows%25E4%25B8%258B%25E5%25AE%2589%25E8%...
2019-11-30 21:09:38
176
原创 更新pip 遇到“pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonh”
更换镜像网站举例:python -m pip install --upgrade pip -i https://pypi.mirrors.ustc.edu.cn/simple/re:https://blog.youkuaiyun.com/David_Yang_7/article/details/81161168
2019-11-04 14:28:35
425
用于练习的美国人口数据信息
2020-01-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人