Python股票分析系列——基础股票数据操作（一）.p3

最新推荐文章于 2025-02-09 09:33:49 发布

weixin_30834019

最新推荐文章于 2025-02-09 09:33:49 发布

阅读量98

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/Blaxon/p/8567656.html

本教程介绍如何使用Python进行股市数据的基本操作和可视化，包括计算移动平均线并使用matplotlib绘制股价及交易量图表。

该系列视频已经搬运至bilibili：点击查看

欢迎来到Python for Finance教程系列的第3部分。在本教程中，我们将使用我们的股票数据进一步分解一些基本的数据操作和可视化。我们将要使用的开始代码（在前面的教程中已经介绍过）是：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style
import pandas as pd
import pandas_datareader.data as web
style.use('ggplot')

df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0)

pandas模块配备了一系列可以利用的内置功能，以及创建自定义pandas功能的方法。稍后我们将介绍一些自定义函数，但现在让我们对这些数据执行一个非常常见的操作：移动平均线moving averages。

简单移动平均线的想法是花时间窗口，并计算该窗口中的平均价格。然后我们把这个窗口转过一段时间，然后再做一次。在我们的例子中，我们将执行100日均线（100ma）。因此，这将采用当前价格，并将过去99天的价格加起来除以100，然后确定当前的100日均线。然后我们移动窗户超过1天，然后再做同样的事情。在pandas中这样做很简单：

df['100ma'] = df['Adj Close'].rolling(window=100).mean()

做df ['100ma']允许我们重新定义包含现有列的内容（如果我们有一个名为“100ma”的），或者创建一个新列，这就是我们在这里所做的。我们说df ['100ma']列等同于应用滚动方法的df ['Adj Close']列，窗口为100，这个窗口将是一个平均值（）（平均）操作。

现在，我们可以这样做：

print(df.head())

                  Date       Open   High        Low      Close    Volume  \
Date                                                                       
2010-06-29  2010-06-29  19.000000  25.00  17.540001  23.889999  18766300   
2010-06-30  2010-06-30  25.790001  30.42  23.299999  23.830000  17187100   
2010-07-01  2010-07-01  25.000000  25.92  20.270000  21.959999   8218800   
2010-07-02  2010-07-02  23.000000  23.10  18.709999  19.200001   5139800   
2010-07-06  2010-07-06  20.000000  20.00  15.830000  16.110001   6866900   

            Adj Close  100ma  
Date                          
2010-06-29  23.889999    NaN  
2010-06-30  23.830000    NaN  
2010-07-01  21.959999    NaN  
2010-07-02  19.200001    NaN  
2010-07-06  16.110001    NaN

发生了什么？在100ma列下，我们只看到NaN。我们选择了100个移动平均线，理论上需要100个之前的数据点进行计算，所以我们在前100行中不会有任何数据。 NaN的意思是“Not a Number”。在Pandas，你可以决定做许多事情与缺失的数据，但现在，让我们实际上只是改变最小周期参数：

df['100ma'] = df['Adj Close'].rolling(window=100,min_periods=0).mean()
print(df.head())

                  Date       Open   High        Low      Close    Volume  \
Date                                                                       
2010-06-29  2010-06-29  19.000000  25.00  17.540001  23.889999  18766300   
2010-06-30  2010-06-30  25.790001  30.42  23.299999  23.830000  17187100   
2010-07-01  2010-07-01  25.000000  25.92  20.270000  21.959999   8218800   
2010-07-02  2010-07-02  23.000000  23.10  18.709999  19.200001   5139800   
2010-07-06  2010-07-06  20.000000  20.00  15.830000  16.110001   6866900   

            Adj Close      100ma  
Date                              
2010-06-29  23.889999  23.889999  
2010-06-30  23.830000  23.860000  
2010-07-01  21.959999  23.226666  
2010-07-02  19.200001  22.220000  
2010-07-06  16.110001  20.998000

看吧，现在生效了，现在我们想看看它！但是我们已经看到了简单的图表，稍微复杂一点的东西呢？

ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1)
ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1,sharex=ax1)

基本上，我们说我们要创建两个子图，并且这两个子图都会像6x1网格一样工作，我们有6行1列。第一个子图从该网格上的（0,0）开始，跨越5行，并跨越1列。下一个轴也位于6x1网格上，但它始于（5,0），跨越1行和1列。第二个轴也有sharex = ax1，这意味着ax2将始终将其x轴与ax1的x轴对齐，反之亦然。现在我们只是制作我们的地块：

ax1.plot(df.index, df['Adj Close'])
ax1.plot(df.index, df['100ma'])
ax2.bar(df.index, df['Volume'])

plt.show()

综上，我们绘制了第一轴上的close和100ma，第二轴上的volume。我们的结果：

完整的代码到目前为止：

import datetime as dt
import matplotlib.pyplot as plt
from matplotlib import style
import pandas as pd
import pandas_datareader.data as web
style.use('ggplot')

df = pd.read_csv('tsla.csv', parse_dates=True, index_col=0)
df['100ma'] = df['Adj Close'].rolling(window=100, min_periods=0).mean()
print(df.head())

ax1 = plt.subplot2grid((6,1), (0,0), rowspan=5, colspan=1)
ax2 = plt.subplot2grid((6,1), (5,0), rowspan=1, colspan=1, sharex=ax1)

ax1.plot(df.index, df['Adj Close'])
ax1.plot(df.index, df['100ma'])
ax2.bar(df.index, df['Volume'])

plt.show()