python中pandas进行数据分析与可视化（3）

孟意昶

已于 2022-12-20 22:31:33 修改

阅读量906

点赞数 1

分类专栏： python记录文章标签： python 数据分析 pandas

于 2022-12-18 17:08:32 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44999258/article/details/128363492

版权

本文介绍了如何使用Python的Pandas库进行数据处理，包括数据源创建、保存到Excel、读取Excel、数据清洗、数据可视化等操作。在数据清洗环节，涉及了列名转换、条件筛选及数据合并。最后，展示了如何通过stack和unstack函数以及groupby进行数据转换和分组求和，以及如何进行数据的可视化展示。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.创建数据源

在前几篇博客中，都是手动创建少量数据充当数据源，这次通过随机生成，让数据量多一些

# 导入所有需要的库
import pandas as pd
import numpy.random as np
import openpyxl
import xlrd
import matplotlib.pyplot as plt

#创建一些测试数据用来分析
# 设置种子
np.seed(111)
# 生成测试数据的函数
def CreateDataSet(Number=1):
    Output = []
    for i in range(Number):
        # 创建一个按周计算的日期范围(每周一起始)
        rng = pd.date_range(start='1/1/2019', end='12/31/2022',freq='W-MON') #freq表示日期的频率
        # 创建一些随机数
        data = np.randint(low=25, high=1000, size=len(rng))
        # 状态池
        status = [1, 2, 3]
        # 创建一个随机的状态列表
        random_status = [status[np.randint(low=0, high=len(status))] for i in range(len(rng))]
        # 城市的列表
        states = ['BJ','bj','SH','SHANGHAI','SZ','TJ','CQ','GZ']
        # 创建一个城市的随机列表
        random_states = [states[np.randint(low=0, high=len(states))] for i in range(len(rng))]
        Output.extend(zip(random_states, random_status, data, rng))
        return Output

dataset = CreateDataSet(4)
print(dataset)
df = pd.DataFrame(data=dataset, columns=['State','Status','CustomerCount','StatusDate'])
print(df.info)

在这里插入图片描述

2.保存至excel

如果不指定保存的文件路径，就会默认保存到当前路径下

# 结果保存到 Excel 中。 需要 openpyxl 包
df.to_excel('Lesson3.xlsx', index=False) #不保存索引&#x

最低0.47元/天解锁文章