仅仅记录一下简单的特征分析法:
数据集仍是:Pima印第安人糖尿病数据集皮马印第安人糖尿病数据集免费下载分享-机器学习文档类资源-优快云下载
主要是:数据分布、散点图、相关性矩阵分析等
代码如下:
from operator import index
from numpy import loadtxt
from numpy import sort
from matplotlib import pyplot
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
# #----------------------Load Data-----------------------------------------------
dataset = loadtxt(r'C:\Users\Administrator\Desktop\pima-indians-diabetes.csv', delimiter=",",skiprows=1)
# #--------------------- array转化为DataFrame,并添加列名# -----------------------------------
data = np.array(dataset)
df = pd.DataFrame(data=data[0:,0:],
columns=['pregnants','Plasma_glucose_concentration','blood_pressure','Triceps_skin_fold_thickness','serum_insulin','BMI','Diabetes_pedigree_function','Age'

本文档详细介绍了使用Xgboost对Pima印第安人糖尿病数据集进行特征分析的过程,包括数据分布观察、散点图绘制以及相关性矩阵的计算。通过这些分析,有助于理解数据特性和模型构建。
最低0.47元/天 解锁文章
831

被折叠的 条评论
为什么被折叠?



