查漏补缺2.0

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 700 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

一、函数相关

累计和函数与方差函数
- np.cumsum()：用于计算累计和。
- np.var()：用于计算方差。
多项式拟合相关函数
- np.polyfit()：是 numpy 库中的函数，用于拟合多项式曲线。如parameter = np.polyfit(x_log, y_log, 1)，其主要目的是找到一条最适合给定数据点(x_log, y_log)的一次多项式（线性函数）。
- np.poly1d()：也是 numpy 库中的函数，用于创建一个一维多项式函数对象。如y = np.poly1d(parameter)，该函数对象可像普通函数一样被调用，传入自变量的值就能计算出对应的多项式函数的值。

二、数据处理相关

Iris 的四个特征名称
- 花萼长度：sepal length (cm)
- 花萼宽度：sepal width (cm)
- 花瓣长度：petal length (cm)
- 花瓣宽度：petal width (cm)
分组操作相关
- m_d = mexico_deaths.groupby(['hod', 'cod']).size().reset_index().rename(columns={0: 'freq', 'cod': 'code'}).dropna()：
  - .size()方法对分组后的DataFrameGroupBy对象进行操作时，仅关注分组情况以及每个分组的大小（即每个分组包含的行数），不会自动包含原始DataFrame中的其他列信息。
排序操作相关
- sort_values()：括号里需要有参数，默认升序，在括号里加上ascending=False可改为降序。

三、遍历相关

for index, cod in enumerate(m_d_unusual_bigger['code'].unique()):：enumerate()是 Python 的内置函数，主要作用是在遍历可迭代对象（如列表、元组、字符串、数组等）时，同时返回每个元素以及该元素在可迭代对象中的索引位置。

四、绘图相关

subplot()与add_subplot()区别
- subplot()：是一个函数，通常以plt.subplot(nrows, ncols, plot_number)的形式调用（plt是matplotlib.pyplot模块的别名）。例如plt.subplot(2, 3, 4)，这种方式直接在matplotlib的默认图形对象（如果没有显式创建新的图形对象）上创建子图。
- add_subplot()：是Figure类的一个方法。首先需要创建一个Figure对象（如fig = plt.figure()），然后通过这个图形对象来调用add_subplot()方法，形式为fig.add_subplot(nrows, ncols, plot_number)。
plt.figure()的作用及两种用法区别
- 作用：plt.figure()主要用于创建一个新的图形（Figure）对象，是包含所有绘图元素（如子图、坐标轴、标题、图例等）的容器，为整个绘图操作提供基础框架。
- 用法区别：
  - fig = plt.figure()的用法：将plt.figure()的返回值（创建的图形对象）赋值给一个变量（如fig），可通过该变量对图形对象进行更详细操作，如使用fig.add_subplot()方法添加子图或设置图形对象的其他属性（大小、分辨率等），适用于对图形对象进行精细控制或复杂绘图场景。
  - 直接使用plt.figure()的用法：如在代码plt.figure(); axes1 = plt.subplot(1, 2, 1)中，虽未将返回的图形对象赋值给变量，但仍创建了新图形对象，matplotlib会在内部将其作为当前图形环境用于后续绘图操作，plt.subplot(1, 2, 1)会自动将子图添加到该图形对象中，适用于简单绘图场景。
plt.tight_layout()
- plt.tight_layout()是matplotlib库中的函数，主要用于自动调整图形（Figure）中各个子图（Axes）之间的布局，以及子图与图形边缘之间的间距，使整个图形布局更加紧凑、美观。

五、库导入相关

从scipy导入相关
- from scipy import stats：
  - scipy是用于科学计算的 Python 库，建立在numpy基础之上，提供许多高级科学计算算法和工具，涉及数值积分、优化、统计、信号处理、图像处理等众多领域。
  - stats模块是scipy中专门用于统计分析的部分，包含大量概率分布函数、统计检验方法以及统计量计算工具等。
从statsmodels导入相关
- import statsmodels.api as sm：statsmodels是用于统计建模和计量经济学的 Python 库，提供一系列用于估计各种统计模型、进行统计检验以及分析数据的工具，这里将其库的应用程序接口（API）全部导入到当前 Python 环境中。
从sklearn导入相关
- from sklearn.neighbors import KNeighborsClassifier：导入KNeighborsClassifier类实现了K - 近邻（K - Nearest Neighbors，KNN）分类算法，其参数如下：
  - n_neighbors（K值）：是KNeighborsClassifier最重要的参数，用于指定在进行分类预测时考虑的最近邻居的数量。
  - algorithm：用于指定计算最近邻居的算法。
- from sklearn.metrics import accuracy_score：accuracy_score函数主要用于计算分类模型的准确率，其两个主要参数是y_true和y_pred。

六、训练拟合结果相关属性和函数

.summary()函数：用于展示模型或数据的综合统计信息，在不同库和数据结构中有不同实现，总体目的是提供简洁明了的信息概览。
.predict()函数：用于根据已经拟合好的模型对新的数据进行预测，传入的数据应考虑截距项对应的虚拟变量[1, h]。
params属性：默认输出包含截距项和斜率的系数估计值。
rsquared属性：主要用于衡量模型的拟合优度，值越高拟合优度越好。
f_pvalue属性：用于提供F - 统计量的p - 值，一个好的模型通常希望f_pvalue足够小。
resid属性：存储的是模型的残差。
- 查看Durbin-Watson统计量：sm.stats.stattools.durbin_watson(results.resid)。
- 查看JB统计量及其p值：sm.stats.stattools.jarque_bera(results.resid)。