查漏补缺2.0

一、函数相关

  1. 累计和函数与方差函数

    • np.cumsum():用于计算累计和。
    • np.var():用于计算方差。
  2. 多项式拟合相关函数

    • np.polyfit():是 numpy 库中的函数,用于拟合多项式曲线。如parameter = np.polyfit(x_log, y_log, 1),其主要目的是找到一条最适合给定数据点(x_log, y_log)的一次多项式(线性函数)。
    • np.poly1d():也是 numpy 库中的函数,用于创建一个一维多项式函数对象。如y = np.poly1d(parameter),该函数对象可像普通函数一样被调用,传入自变量的值就能计算出对应的多项式函数的值。

二、数据处理相关

  1. Iris 的四个特征名称

    • 花萼长度:sepal length (cm)
    • 花萼宽度:sepal width (cm)
    • 花瓣长度:petal length (cm)
    • 花瓣宽度:petal width (cm)
  2. 分组操作相关

    • m_d = mexico_deaths.groupby(['hod', 'cod']).size().reset_index().rename(columns={0: 'freq', 'cod': 'code'}).dropna()
      • .size()方法对分组后的DataFrameGroupBy对象进行操作时,仅关注分组情况以及每个分组的大小(即每个分组包含的行数),不会自动包含原始DataFrame中的其他列信息。
  3. 排序操作相关

    • sort_values():括号里需要有参数,默认升序,在括号里加上ascending=False可改为降序。

三、遍历相关

  • for index, cod in enumerate(m_d_unusual_bigger['code'].unique()):enumerate()是 Python 的内置函数,主要作用是在遍历可迭代对象(如列表、元组、字符串、数组等)时,同时返回每个元素以及该元素在可迭代对象中的索引位置。

四、绘图相关

  1. subplot()add_subplot()区别

    • subplot():是一个函数,通常以plt.subplot(nrows, ncols, plot_number)的形式调用(pltmatplotlib.pyplot模块的别名)。例如plt.subplot(2, 3, 4),这种方式直接在matplotlib的默认图形对象(如果没有显式创建新的图形对象)上创建子图。
    • add_subplot():是Figure类的一个方法。首先需要创建一个Figure对象(如fig = plt.figure()),然后通过这个图形对象来调用add_subplot()方法,形式为fig.add_subplot(nrows, ncols, plot_number)
  2. plt.figure()的作用及两种用法区别

    • 作用:plt.figure()主要用于创建一个新的图形(Figure)对象,是包含所有绘图元素(如子图、坐标轴、标题、图例等)的容器,为整个绘图操作提供基础框架。
    • 用法区别:
      • fig = plt.figure()的用法:将plt.figure()的返回值(创建的图形对象)赋值给一个变量(如fig),可通过该变量对图形对象进行更详细操作,如使用fig.add_subplot()方法添加子图或设置图形对象的其他属性(大小、分辨率等),适用于对图形对象进行精细控制或复杂绘图场景。
      • 直接使用plt.figure()的用法:如在代码plt.figure(); axes1 = plt.subplot(1, 2, 1)中,虽未将返回的图形对象赋值给变量,但仍创建了新图形对象,matplotlib会在内部将其作为当前图形环境用于后续绘图操作,plt.subplot(1, 2, 1)会自动将子图添加到该图形对象中,适用于简单绘图场景。
  3. plt.tight_layout()

    • plt.tight_layout()matplotlib库中的函数,主要用于自动调整图形(Figure)中各个子图(Axes)之间的布局,以及子图与图形边缘之间的间距,使整个图形布局更加紧凑、美观。

五、库导入相关

  1. scipy导入相关

    • from scipy import stats
      • scipy是用于科学计算的 Python 库,建立在numpy基础之上,提供许多高级科学计算算法和工具,涉及数值积分、优化、统计、信号处理、图像处理等众多领域。
      • stats模块是scipy中专门用于统计分析的部分,包含大量概率分布函数、统计检验方法以及统计量计算工具等。
  2. statsmodels导入相关

    • import statsmodels.api as smstatsmodels是用于统计建模和计量经济学的 Python 库,提供一系列用于估计各种统计模型、进行统计检验以及分析数据的工具,这里将其库的应用程序接口(API)全部导入到当前 Python 环境中。
  3. sklearn导入相关

    • from sklearn.neighbors import KNeighborsClassifier:导入KNeighborsClassifier类实现了K - 近邻(K - Nearest Neighbors,KNN)分类算法,其参数如下:
      • n_neighbors(K值):是KNeighborsClassifier最重要的参数,用于指定在进行分类预测时考虑的最近邻居的数量。
      • algorithm:用于指定计算最近邻居的算法。
    • from sklearn.metrics import accuracy_scoreaccuracy_score函数主要用于计算分类模型的准确率,其两个主要参数是y_truey_pred

六、训练拟合结果相关属性和函数

  • .summary()函数:用于展示模型或数据的综合统计信息,在不同库和数据结构中有不同实现,总体目的是提供简洁明了的信息概览。
  • .predict()函数:用于根据已经拟合好的模型对新的数据进行预测,传入的数据应考虑截距项对应的虚拟变量[1, h]
  • params属性:默认输出包含截距项和斜率的系数估计值。
  • rsquared属性:主要用于衡量模型的拟合优度,值越高拟合优度越好。
  • f_pvalue属性:用于提供F - 统计量p - 值,一个好的模型通常希望f_pvalue足够小。
  • resid属性:存储的是模型的残差。
    • 查看Durbin-Watson统计量:sm.stats.stattools.durbin_watson(results.resid)
    • 查看JB统计量及其p值:sm.stats.stattools.jarque_bera(results.resid)

什么是分组操作?

提供一些关于墨西哥死亡人数数据的可视化示例。

如何在 Python 中使用 groupby 函数进行数据分组?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值