阿里云天池金融风控训练营广东工业梁钰莹学习笔记
一、知识概要
1、 学习如何对数据集整体概况进行分析,包括数据集的基本情况(缺失值,异常值)
2、 学习了解变量间的相互关系、变量与预测值之间的存在关系
3、用pandas_profiling生成数据报告
二、学习内容
2.1导入数据分析及可视化过程需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import warnings
warnings.filterwarnings('ignore')
2.2 读取文件
data_train = pd.read_csv('train.csv')
data_test_a = pd.read_csv('testA.csv')
•TSV是用制表符(Tab,'\t')作为字段值的分隔符;CSV是用半角逗号(',')作为字段值的分隔符;
•Python的csv模块准确的讲应该叫做dsv模块,因为它实际上是支持范式的分隔符分隔值文件(DSV,delimiter-separated values)的。 delimiter参数值默认为半角逗号,即默认将被处理文件视为CSV。当delimiter='\t'时,被处理文件就是TSV。
•通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。
2.3查看数据集中特征缺失值,唯一值
• 纵向了解哪些列存在 “nan”, 并可以把nan的个数打印,主要的目的在于查看某一列nan存在的个数是否真的很大,如果nan存在的过多,说明这一列对label的影响几乎不起作用了,可以考虑删掉。如果缺失值很小一般可以选择填充。
•另外可以横向比较,如果在数据集中,某些样本数据的大部分列都是缺失的且样本足够的情况下可以考虑删除。
2.4特征的数值类型
•特征:类别型特征:类别型特征有时具有非数值关系,有
时也具有数值关系。比如‘grade’中的等级A,B,
C等是否只是单纯的分类,还是A优于其他要结合业务
判断
数值型特征:连续型和离散型
数值型特征本是可以直接入模的,但往往风控人员要
对其做分箱,转化为WOE编码进而做标准评分卡等操
作。从模型效果上来看,特征分箱主要是为了降低变
量的复杂性,减少变量噪音对模型的影响,提高自变
量和因变量的相关度。从而使模型更加稳定。
•数值连续型变量分析
•非数值类别型变量分析
2.4变量分布可视化
•单一变量分布可视化
•根据y值不同可视化x某个特征的分布
(首先查看类别型变量在不同y值上的分布, 其次查看连续型变量在不同y值上的分布)
2.5时间格式数据处理及查看
2.6 用pandas_profiling生成数据报告
三、学习问题与解答
1、问题:查看变量是否符合正态分布,用什么研究方法较好?
回答:线性回归分析、Pearson相关分析、方差分析、独立T 检验、单样本T检验
2、不满足正态分布时该的原因是?该怎么办?
回答:原因:抽样样本过少、认知存在不一致
解决:利用正态分布图直接判断正态分布特质、将数据取对数、使用其他研究方法。
四、学习总结
task 2的学习相对于task 1的来说要更深入一些,对于初学者确实很难理解,很多内容要靠百度及反复看多次才能理解,对python不熟练,以后要多加强对python的学习。