pandas操作csv以及可视化操作（实例）

原创

已于 2022-12-08 19:07:55 修改 · 555 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python

于 2022-05-05 16:54:26 首次发布

本文详细介绍了如何利用Python的pandas库进行CSV数据的读取、操作和分析，包括数据清洗、筛选、合并等基本操作，并进一步探讨了如何结合matplotlib进行数据可视化，如绘制柱状图、折线图等。

# -*- coding: utf-8 -*-
""" 
@Time    : 2022/5/5 10:11
@Author  : Mr Wang
@FileName: main_usepd.py
@SoftWare: PyCharm
"""
import pandas as pd
import numpy as np

pd.set_option('display.max_rows', 2000)

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['KaiTi']

#数据清洗，不符合的改为NAN
def data_clean(sex):
    if (sex == 'f') | (sex == 'female'):
        return 'female'
    elif (sex == 'm') | (sex == 'male'):
        return 'male'
    else:
        return np.NAN


if __name__ == '__main__':
    path = 'E:\python\data_mining\codes1\lect01_proj\survey.csv'
    #usecols表示只需的列
    df = pd.read_csv(path, usecols=['Country', 'Gender'])
    #重写列名
    df.rename(columns={'Country': 'cou', 'Gender': 'gen'}, inplace=True)

    # print(df.head())

    df['gen'] = df['gen'].replace(' ', '')
    #一定要加str才可以使用lower()
    df['gen'] = df['gen'].str.lower()
    #qpply函数运用于该列的每一个数据
    df['gen'] = df['gen'].apply(data_clean)
    #默认有一个为空就删除
    df = df.dropna()

    #多