加载调用函数包
import numpy as np # 快速操作结构数组的工具
import pandas
import matplotlib.pyplot as plt # 可视化绘制
from sklearn.linear_model import Lasso,LassoCV,LassoLarsCV
数据读取
data = pd.read_csv('C://Users//TD//Desktop//data0629.csv')
相关系数查看
data.corr()
选择变量相关性系数较好的,可以作为进一步参考分析。
归一化处理
利用均值和标准差进行数据归一化处理,克服量纲的影响。
import numpy as np
arr_mean = np.mean(data) #求均值
arr_std = np.std(data,ddof=1) #求标准差
newdata=(data-arr_mean )/arr_std
分组抽样划分训练集和测试集
X = newdata[["年龄","性别","重点病种名称编码","住院总费用","科室名称编码","确诊天数","门诊与入院诊断符合情况","住院是否超30天","术前住院日","手术季度","手术日期与出院日时差天数","手术级别程度编码","是否重返医院","检验时长"]]
Y =