将数据加载到 Pandas DataFrame 中
在机器学习中,你很有可能会使用来自很多来源的数据库训练学习算法。Pandas 使我们能够将不同格式的数据库加载到 DataFrame 中。用于存储数据库的最热门数据格式是 csv。CSV 是指_逗号分隔值_,是一种简单的数据存储格式。我们可以使用 pd.read_csv() 函数将 CSV 文件加载到 Pandas DataFrame 中。我们将 Google 股票数据加载到一个 Pandas DataFrame 中。GOOG.csv 文件包含从雅虎金融那获取的 2004 年 8 月 19 日至 2017 年 10 月 13 日 Google 股票数据。
# 我们将 Google 股票数据加载到 DataFrame 中
Google_stock = pd.read_csv('./GOOG.csv')
# 我们输出关于 Google_stock 的一些信息
print('Google_stock is of type:', type(Google_stock))
print('Google_stock has shape:', Google_stock.shape)
Google_stock is of type: class 'pandas.core.frame.DataFrame'
Google_stock has shape: (3313, 7)
可以看出,我们将 GOOG.csv 文件加载到了 Pandas DataFrame 中,其中包含 3,313 行和 7 列数据。现在我们来看看股票数据
Google_stock
Date Open High Low Close Adj Close Volume
0 2004-08-19 49.676899 51.693783 47.669952 49.845802 49.845802 44994500
1 2004-08-20 50.178635 54.187561 49.925285 53.805050 53.805050 23005800
2 2004-08-23 55.017166 56.373344 54.172661 54.346527 54.346527 18393200
... ...
3311 2017-10-12 987.450012 994.119995 985.000000 987.830017 987.830017 1262400
3312 2017-10-13 992.000000 997.210022 989.000000 989.679993 989.679993 1157700
可以看出,这是一个非常庞大的数据集,Pandas 自动为该 DataFrame 分配了数字行索引。Pandas 还使用出现在 CSV 文件中的标签为列分配标签。
在处理这样的大型数据集时,通常有必要直接查看前几行数据,而不是整个数据集。我们可以使用

本文详细介绍了如何使用Python的Pandas库加载CSV数据,并展示了如何查看和处理数据集,包括检查缺失值、获取统计信息以及进行数据分组和聚合操作。通过实例解释了如何加载Google股票数据,并利用.head()和.tail()方法查看数据,以及如何计算数据的相关性和分组统计数据。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



