一、函数相关
-
累计和函数与方差函数
np.cumsum()
:用于计算累计和。np.var()
:用于计算方差。
-
多项式拟合相关函数
np.polyfit()
:是 numpy 库中的函数,用于拟合多项式曲线。如parameter = np.polyfit(x_log, y_log, 1)
,其主要目的是找到一条最适合给定数据点(x_log, y_log)
的一次多项式(线性函数)。np.poly1d()
:也是 numpy 库中的函数,用于创建一个一维多项式函数对象。如y = np.poly1d(parameter)
,该函数对象可像普通函数一样被调用,传入自变量的值就能计算出对应的多项式函数的值。
二、数据处理相关
-
Iris 的四个特征名称
- 花萼长度:
sepal length (cm)
- 花萼宽度:
sepal width (cm)
- 花瓣长度:
petal length (cm)
- 花瓣宽度:
petal width (cm)
- 花萼长度:
-
分组操作相关
m_d = mexico_deaths.groupby(['hod', 'cod']).size().reset_index().rename(columns={0: 'freq', 'cod': 'code'}).dropna()
:.size()
方法对分组后的DataFrameGroupBy
对象进行操作时,仅关注分组情况以及每个分组的大小(即每个分组包含的行数),不会自动包含原始DataFrame
中的其他列信息。
-
排序操作相关
sort_values()
:括号里需要有参数,默认升序,在括号里加上ascending=False
可改为降序。
三、遍历相关
for index, cod in enumerate(m_d_unusual_bigger['code'].unique()):
:enumerate()
是 Python 的内置函数,主要作用是在遍历可迭代对象(如列表、元组、字符串、数组等)时,同时返回每个元素以及该元素在可迭代对象中的索引位置。
四、绘图相关
-
subplot()
与add_subplot()
区别subplot()
:是一个函数,通常以plt.subplot(nrows, ncols, plot_number)
的形式调用(plt
是matplotlib.pyplot
模块的别名)。例如plt.subplot(2, 3, 4)
,这种方式直接在matplotlib
的默认图形对象(如果没有显式创建新的图形对象)上创建子图。add_subplot()
:是Figure
类的一个方法。首先需要创建一个Figure
对象(如fig = plt.figure()
),然后通过这个图形对象来调用add_subplot()
方法,形式为fig.add_subplot(nrows, ncols, plot_number)
。
-
plt.figure()
的作用及两种用法区别- 作用:
plt.figure()
主要用于创建一个新的图形(Figure
)对象,是包含所有绘图元素(如子图、坐标轴、标题、图例等)的容器,为整个绘图操作提供基础框架。 - 用法区别:
fig = plt.figure()
的用法:将plt.figure()
的返回值(创建的图形对象)赋值给一个变量(如fig
),可通过该变量对图形对象进行更详细操作,如使用fig.add_subplot()
方法添加子图或设置图形对象的其他属性(大小、分辨率等),适用于对图形对象进行精细控制或复杂绘图场景。- 直接使用
plt.figure()
的用法:如在代码plt.figure(); axes1 = plt.subplot(1, 2, 1)
中,虽未将返回的图形对象赋值给变量,但仍创建了新图形对象,matplotlib
会在内部将其作为当前图形环境用于后续绘图操作,plt.subplot(1, 2, 1)
会自动将子图添加到该图形对象中,适用于简单绘图场景。
- 作用:
-
plt.tight_layout()
plt.tight_layout()
是matplotlib
库中的函数,主要用于自动调整图形(Figure
)中各个子图(Axes
)之间的布局,以及子图与图形边缘之间的间距,使整个图形布局更加紧凑、美观。
五、库导入相关
-
从
scipy
导入相关from scipy import stats
:scipy
是用于科学计算的 Python 库,建立在numpy
基础之上,提供许多高级科学计算算法和工具,涉及数值积分、优化、统计、信号处理、图像处理等众多领域。stats
模块是scipy
中专门用于统计分析的部分,包含大量概率分布函数、统计检验方法以及统计量计算工具等。
-
从
statsmodels
导入相关import statsmodels.api as sm
:statsmodels
是用于统计建模和计量经济学的 Python 库,提供一系列用于估计各种统计模型、进行统计检验以及分析数据的工具,这里将其库的应用程序接口(API)全部导入到当前 Python 环境中。
-
从
sklearn
导入相关from sklearn.neighbors import KNeighborsClassifier
:导入KNeighborsClassifier
类实现了K - 近邻(K - Nearest Neighbors,KNN)
分类算法,其参数如下:n_neighbors(K值)
:是KNeighborsClassifier
最重要的参数,用于指定在进行分类预测时考虑的最近邻居的数量。algorithm
:用于指定计算最近邻居的算法。
from sklearn.metrics import accuracy_score
:accuracy_score
函数主要用于计算分类模型的准确率,其两个主要参数是y_true
和y_pred
。
六、训练拟合结果相关属性和函数
.summary()
函数:用于展示模型或数据的综合统计信息,在不同库和数据结构中有不同实现,总体目的是提供简洁明了的信息概览。.predict()
函数:用于根据已经拟合好的模型对新的数据进行预测,传入的数据应考虑截距项对应的虚拟变量[1, h]
。params
属性:默认输出包含截距项和斜率的系数估计值。rsquared
属性:主要用于衡量模型的拟合优度,值越高拟合优度越好。f_pvalue
属性:用于提供F - 统计量
的p - 值
,一个好的模型通常希望f_pvalue
足够小。resid
属性:存储的是模型的残差。- 查看
Durbin-Watson
统计量:sm.stats.stattools.durbin_watson(results.resid)
。 - 查看
JB
统计量及其p
值:sm.stats.stattools.jarque_bera(results.resid)
。
- 查看
什么是分组操作?
提供一些关于墨西哥死亡人数数据的可视化示例。
如何在 Python 中使用 groupby 函数进行数据分组?