在对数据进行分析时,首先需要了解相关的名词在该行业里的含义,即查阅相关知识对题目进行整体把握。
下面是进行数据分析的步骤:
1、读取数据
import pandas as pd data = pd.read_csv("data/train.csv")2、对数据进行预处理
具体包括:
(1)、剔除空白值超过一半的列
half_count = len(data)/2 data = data.dropna(thresh=half_count, axis=1)(2)、剔除值完全相同的列
data = data.drop(['exm1'], axis=1)(3)、剔除与预测值相关性不大的列
data = data.drop(['exm2', 'exm3'], axis=1)(4)、对非数值列使用数值进行替换
status_replace1 = { "grade": { "A": 0, "B": 1, "C": 2, "D": 3, "E": 4 } } data = data.replace(status_replace1)(5)、对某些存在空白值的列进行删除或填充
删除:
填充:data = data.dropna(axis=0)data = data.fillna(0) # 使用0值填充,还有其他填充方式,在此不做赘述(6)、选择训练属性和label值
x = data.iloc[:, 0: 5].as_matrix() # 结果标签 y = data.iloc[:, 6].as_matrix()(7)、初始化模型并进行训练
lr = LR() lr.fit(x, y)(8)、获取模型得分并对test.csv进行预测
以上就是我所总结的使用Pandas和Logistic Regression进行数据分析的步骤。lr.score() lr.predict(x1)
本文介绍使用Pandas进行数据预处理的方法,并通过Logistic Regression实现数据分析与预测。涵盖数据读取、预处理、特征选择及模型训练等关键步骤。
1589

被折叠的 条评论
为什么被折叠?



