Pandas画图、统计、累计、csv文件的读取,缺失值的处理

本文详细介绍了Pandas库在数据处理中的应用,包括数据读取、存储、缺失值处理及绘图功能。演示了如何使用Pandas进行CSV、HDF5、JSON等文件的读写操作,处理缺失值,并利用Pandas的绘图功能探索数据间的关系。

Pandas画图:

api手册如下:

在这里插入图片描述
在这里插入图片描述

具体演示:

准备数据:
  • data = pd.read_csv("./data/stock_day.csv")
  • data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)
    在这里插入图片描述
绘制散点图:

在这里插入图片描述

  • 通过上图我们发现上面这两个字段貌似没有什么内在的关系。
    在这里插入图片描述
  • 通过画图我们发现上面这两个字段貌似你在增长的时候我也在增长。
    在这里插入图片描述

pandas的IO操作

  • 我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。
    在这里插入图片描述

csv文件的读取于储存:

在这里插入图片描述
读取之前的股票数据:

  • data = pd.read_csv("./data/stock_day.csv")
    在这里插入图片描述
  • data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)
    在这里插入图片描述
    在这里插入图片描述
  • 也可以在读取数据的时候指定读取的字段
  • data = pd.read_csv("./data/stock_day.csv", usecols=[“open”, “high”, “close”])
    在这里插入图片描述
也可以在读取文件的时候设置列索引:
  • names=[“open”, “high”, “close”, “low”, “volume”, “price_change”, “p_change”, “ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”, “turnover”]
    在这里插入图片描述

将数据写入到csv文件中

在这里插入图片描述

  • 选取前10行数据保存,便于观察数据:
    在这里插入图片描述
  • data[:10].to_csv("./data/test.csv", columns=[“open”])
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
读取、查看结果:

在这里插入图片描述

  • 会发现将索引存入到文件当中,变成单独的一列数据。如果需要删除,可以指定index参数,删除原来的文件,重新保存一次。
    在这里插入图片描述
    在这里插入图片描述
指定追加方式:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 又存进了一个列名,所以当以追加方式添加数据的时候,一定要去掉列名columns,指定header=False
    在这里插入图片描述
    在这里插入图片描述

hdf5文件的读取与存储:

在这里插入图片描述

文件的读取:

在这里插入图片描述

需要安装tables模块避免不能读取HDF5文件:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 将读取到的day_high数据再写入到test.h5文件中:
    在这里插入图片描述
    在这里插入图片描述
  • 注意:此时再来读取的时候必须要指定key了,因为现在这个h5文件中有两份数据。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

json文件的读取与存储:

在这里插入图片描述

数据介绍:

在这里插入图片描述
在这里插入图片描述

读取数据:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

写入数据:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 默认是lines=False:
    在这里插入图片描述
    在这里插入图片描述
总结:

在这里插入图片描述

处理np.nan类型的缺失值:

在这里插入图片描述

如何处理nan:

在这里插入图片描述

缺失值处理案例:
  • 电影数据文件获取:
    在这里插入图片描述
    在这里插入图片描述
  • 判断缺失值是否存在(也就是判断是否存在nan类型的缺失值):
    在这里插入图片描述
    在这里插入图片描述
  • 或是:
    在这里插入图片描述
    在这里插入图片描述
  • 也可以:
    在这里插入图片描述
  • 说明:Revenue和Metascore这两个字段是有缺失值的。
    在这里插入图片描述
    在这里插入图片描述
缺失值处理方法1:删除含有缺失值的样本。

在这里插入图片描述

  • 注意:dropna()方法不会修改源数据,需要接收返回值。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 提示:添加inplace=True的话就是在原数据集上进行修改。
缺失值处理方法2:使用这一列的均值进行填充。

在这里插入图片描述

  • 再来查看一下:
    在这里插入图片描述
处理其他标记的缺失值:
  • 不是缺失值nan,有默认标记的。
    在这里插入图片描述
  • 数据集介绍:威斯康星州乳腺癌数据库(1991年1月8日)
    https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 可以使用浏览器上的在线翻译功能进行翻译一下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • path = “https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data”
  • names = [“Sample code number”, “Clump Thickness”, “Uniformity of Cell Size”, “Uniformity of Cell Shape”, “Marginal Adhesion”, “Single Epithelial Cell Size”, “Bare Nuclei”, “Bland Chromatin”, “Normal Nucleoli”, “Mitoses”, “Class”]
    在这里插入图片描述
    在这里插入图片描述
处理思路分析:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

具体演示:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结:

在这里插入图片描述
在这里插入图片描述

打开下面链接,直接免费下载资源: https://renmaiwang.cn/s/suytq Pandas是Python编程语言中一个非常强大的数据分析和操作库,尤其适用于处理结构化数据,如表格和时间序列数据。它提供了一套丰富的数据结构和操作工具,可以方便地对数据进行清洗、整理、分析和可视化。Pandas库的设计灵感来自于R语言中的data.frame对象,它具备快速、灵活和表达力强的特点。 时间序列数据分析是金融、经济学、社会科学、工程学以及自然科学等多个领域内的一项重要技能。通过时间序列分析,研究人员和数据分析师能够识别数据中的模式、趋势、季节性以及周期性变化,这些信息对于预测未来的数据走向有着极其重要的意义。Pandas库中的时间序列处理功能使得操作这类数据变得非常方便,包括时间戳索引、时间范围生成、频率转换、移动窗口统计等。 在处理股票市场的数据时,Pandas提供了一整套工具来进行高频数据的统计分析。通过对股票市场数据(如开盘价、收盘价、最高价、最低价和成交量等)的分析,可以执行各种金融分析,如计算移动平均线、构建交易策略、风险评估等。Pandas库内的功能可以迅速地对股票数据进行过滤、排序、分组等操作,并且与Python的其他数据分析库(如NumPy和SciPy)以及可视化库(如Matplotlib和Seaborn)的集成性好,可以无缝地进行复杂的数据分析和生成高质量的图表。 此外,Pandas支持通过多种方式从网络上直接读取数据,这使得用户能够方便地从各种数据源获取数据,包括CSV文件、Excel表格、JSON数据、HTML表格等。对于股票市场数据来说,通常这些数据可以从各大财经网站或专业的金融数据服务商处获得。由于这些数据通常具有清晰的格式和结构,因此非常适合使用Pandas进行处理和分析。 值得一提的是,Pandas的高效性能在处理大规模数据时尤为
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值