数据分析学习—使用Pandas进行数据分析

本文介绍使用Pandas进行数据预处理的方法,并通过Logistic Regression实现数据分析与预测。涵盖数据读取、预处理、特征选择及模型训练等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在对数据进行分析时,首先需要了解相关的名词在该行业里的含义,即查阅相关知识对题目进行整体把握。

下面是进行数据分析的步骤:

1、读取数据

import pandas as pd
data = pd.read_csv("data/train.csv")

2、对数据进行预处理

具体包括:

(1)、剔除空白值超过一半的列

 half_count = len(data)/2
 data = data.dropna(thresh=half_count, axis=1)

(2)、剔除值完全相同的列

 data = data.drop(['exm1'], axis=1)

(3)、剔除与预测值相关性不大的列

 data = data.drop(['exm2', 'exm3'], axis=1)

(4)、对非数值列使用数值进行替换

status_replace1 = {
        "grade": {
            "A": 0,
            "B": 1,
            "C": 2,
            "D": 3,
            "E": 4
        }
    }
    data = data.replace(status_replace1)

(5)、对某些存在空白值的列进行删除或填充

删除:

data = data.dropna(axis=0)
填充:
data = data.fillna(0)  # 使用0值填充,还有其他填充方式,在此不做赘述

(6)、选择训练属性和label值

    x = data.iloc[:, 0: 5].as_matrix()

    # 结果标签
    y = data.iloc[:, 6].as_matrix()

(7)、初始化模型并进行训练

    lr = LR()
    lr.fit(x, y)

(8)、获取模型得分并对test.csv进行预测

   lr.score()
   lr.predict(x1)
以上就是我所总结的使用Pandas和Logistic Regression进行数据分析的步骤。
 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cchangcs

谢谢你的支持~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值