- 博客(5)
- 收藏
- 关注
原创 一元线性回归模型的基本假定——转发的其他
原作文文章:http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html一、对模型设定的假设假设1:回归模型是正确设定的。模型的正确设定包括两方面内容:(1)模型选择了正确的变量;(2)模型选择了正确的函数形式。此时,称模型没有设定偏误(specification error)。二、对解释变量的假设假设2:解释变量X是确定性变量,不是...
2019-08-22 12:13:05
7840
1
原创 评分卡模型分箱整理——0820
在尝试做传统评分卡模型的时候,发现有一个必备的步骤是分箱,但是对于分箱不是很理解。找了一些相关的文章,记录下来,后续看是不是更理解的清楚。问题一:为什么要分箱?一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。1、离散特征的增加和减少...
2019-08-20 14:01:20
3574
原创 pandas数据处理-0722
今天终于把泰坦尼克这个救援数据的基本情况拎出来了,现在把代码贴进来,方便后续使用,同时也有一些作为纯纯的小白的傻傻的注释。老手们就绕道吧。import pandas as pd import numpy as nptantic_data = pd.read_csv(r"C:\mafengwo/titanic_train.csv")#对数据整体情况做一个查看,每个变量的缺失...
2019-07-22 18:25:53
269
1
原创 pandas的数据处理基础一——0716
第一步:指定文件的编码类型:# -*- coding: utf-8 -*-#作为一个纯文科生,虽然知道需要指定,还是记录下来吧,免得忘记了。第二步:数据读取的问题food_info = pd.read_csv("C:\Users\enryl\PycharmProjects\data/food_info.csv")(unicode error) 'unicodeesca...
2019-07-16 14:44:13
175
原创 将分类变量与顺序变量转化未标志变量——20190705
一、分类数据/变量VS顺序数据/变量的定义分类数据:分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别男和女就是分类数据。注意:分类数据没有明显的高/低/大/小等包含等级/顺序/排序/好坏等逻辑的划分。只是用来分区两个或者多个具有相同或相似价值的属性。顺序数据:只能归于某一有序类别的非数值型数据,例如学历:小学/初中/高中/大专/本科/研究生等,这个是有明显的排序规律和逻辑...
2019-07-13 18:52:20
2654
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人