机器学习之零基础入门金融风控–贷款违约挑战赛
第17期数据挖掘实践(金融风控)学习简介:
详细信息:https://github.com/datawhalechina/team-learning
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl
天池比赛:https://tianchi.aliyun.com/competition/entrance/531830/introduction
一、赛题理解
迅速阅读一遍官方文档,作为小白开始机器学习需要找到每个阶段的目标,目前还需要学习哪些新知识点,初步识别到如下几个:
二、指标解释
这个赛题主要的评分指标ROC曲线,大家细细品为啥固定的数据,得出固定的(TPR,FPR)对应到图上是一个点,怎么能称之为曲线呢?
ROC解释的地址:
https://segmentfault.com/a/1190000016686335
(我们讨论认为使用不同模型进行预测导致TPR与FPR的计算结果不一致,才能绘制出曲线):
三、数据理解
以前只知道二分类问题用sigmoid函数来解决,现在知道还有好多二分类模型:
建议大家多通读一下官方推荐文档:
逻辑回归(本人亲测好用):
https://blog.youkuaiyun.com/han_xiaoyang/article/details/49123419
决策树模型(阅读后伤了3个脑细胞吧。。。其他模型得慢慢品):
https://blog.youkuaiyun.com/c406495762/article/details/76262487
GBDT模型:
https://zhuanlan.zhihu.com/p/45145899
XGBOOST
https://blog.youkuaiyun.com/wuzhongqiang/article/details/104854890
LightGBM模型
https://blog.youkuaiyun.com/wuzhongqiang/article/details/105350579
Catboost模型
https://mp.weixin.qq.com/s/xloTLr5NJBgBspMQtxPoFA
时间序列模型
RNN:https://zhuanlan.zhihu.com/p/45289691
LSTM:https://zhuanlan.zhihu.com/p/83496936
推荐教材:
《机器学习》 https://book.douban.com/subject/26708119/
《统计学习方法》 https://book.douban.com/subject/10590856/
《面向机器学习的特征工程》 https://book.douban.com/subject/26826639/
《信用评分模型技术与应用》https://book.douban.com/subject/1488075/
《数据化风控》https://book.douban.com/subject/30282558/
[