自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 一元线性回归模型的基本假定——转发的其他

原作文文章:http://blog.sina.com.cn/s/blog_b4c2a9810102wr80.html一、对模型设定的假设假设1:回归模型是正确设定的。模型的正确设定包括两方面内容:(1)模型选择了正确的变量;(2)模型选择了正确的函数形式。此时,称模型没有设定偏误(specification error)。二、对解释变量的假设假设2:解释变量X是确定性变量,不是...

2019-08-22 12:13:05 7840 1

原创 评分卡模型分箱整理——0820

在尝试做传统评分卡模型的时候,发现有一个必备的步骤是分箱,但是对于分箱不是很理解。找了一些相关的文章,记录下来,后续看是不是更理解的清楚。问题一:为什么要分箱?一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。1、离散特征的增加和减少...

2019-08-20 14:01:20 3574

原创 pandas数据处理-0722

今天终于把泰坦尼克这个救援数据的基本情况拎出来了,现在把代码贴进来,方便后续使用,同时也有一些作为纯纯的小白的傻傻的注释。老手们就绕道吧。import pandas as pd import numpy as nptantic_data = pd.read_csv(r"C:\mafengwo/titanic_train.csv")#对数据整体情况做一个查看,每个变量的缺失...

2019-07-22 18:25:53 269 1

原创 pandas的数据处理基础一——0716

第一步:指定文件的编码类型:# -*- coding: utf-8 -*-#作为一个纯文科生,虽然知道需要指定,还是记录下来吧,免得忘记了。第二步:数据读取的问题food_info = pd.read_csv("C:\Users\enryl\PycharmProjects\data/food_info.csv")(unicode error) 'unicodeesca...

2019-07-16 14:44:13 175

原创 将分类变量与顺序变量转化未标志变量——20190705

一、分类数据/变量VS顺序数据/变量的定义分类数据:分类数据指某些数据属性只能归于某一类别的非数值型数据,例如性别男和女就是分类数据。注意:分类数据没有明显的高/低/大/小等包含等级/顺序/排序/好坏等逻辑的划分。只是用来分区两个或者多个具有相同或相似价值的属性。顺序数据:只能归于某一有序类别的非数值型数据,例如学历:小学/初中/高中/大专/本科/研究生等,这个是有明显的排序规律和逻辑...

2019-07-13 18:52:20 2654

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除