统计学学习日记:L2-集中趋势分析之众数和中位数

本文介绍了集中趋势分析的概念,并详细讲解了众数(M0)和中位数(Me)。众数是一组数据中出现次数最多的值,不受极端值影响,适用于分类数据。中位数是排序后位于中间位置的值,同样不受极端值影响,主要用于顺序数据。文中通过实例解析了如何确定众数和中位数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、集中趋势分析

二、众数(M0)

  三、中位数(Me)


一、集中趋势分析

概念:

1.一组数据向其中心值靠拢的倾向和程度。

2.测度集中趋势就是寻找数据水平的代表值或中心值。

3.不同类型的数据用不同的集中趋势测度值。

4.低层次数据的测度值适用于高层次的测量数据,但高层次的数据的测度值并不适用于低层次的测量数据。

二、众数(M0)

1.一组数据中出现次数最多的变量值

2.适用于数据量较多时使用

3.不受极端值的影响

4.一组数据中可能没有众数或有几个众数

5.主要用于分类数据,也可用于顺序数据或数值型数据

在集中趋势分析中众数的三个表现形式

例1:

 在这道题中,品类为分类变量,频数就是变量值,日化用品频数为150,占的比例最大,所以众数为日化用品这个品类,即M0=日化用品

<
为了实现你提到的数据处理建模流程,我们可以按照以下步骤进行操作: 1. 读取数据集并提取需要的数据: - 首先,你需要确定你的数据集的格式,比如CSV、Excel、JSON等。根据数据集的格式,选择相应的读取方法,如pandas库中的read_csv()、read_excel()等函数来读取数据。 - 对于数据提取,你可以使用pandas库提供的方法来选择你感兴趣的列或行。 2. 使用matplotlib对数据进行可视化: - 导入matplotlib库,并使用其中的plot()、scatter()等函数进行绘图。 - 你可以绘制单变量特征的直方图、箱线图等,以及多变量特征的散点图、热力图等。 3. 输出前十行数据: - 使用pandas库中的head()函数,可以输出数据集的前n行数据,默认为前5行。 4. 数据清洗、去噪、缺失值填充: - 首先,对于异常值噪声,可以使用统计学方法(如Z-score)或者基于模型的方法(如孤立森林)进行检测处理。 - 对于缺失值,可以使用pandas库中的fillna()函数来填充缺失值,可以选择均值、中位数众数等进行填充。 5. 特征提取、特征选择、特征变换: - 对于特征提取,可以使用特征工程方法,比如多项式特征、离散化、文本特征提取等。 - 对于特征选择,可以使用统计学方法(如方差选择法、相关系数法)、机器学习方法(如递归特征消除法、L1正则化)等。 - 对于特征变换,可以使用标准化、归一化、对数变换、PCA等方法。 6. 训练集测试集划分: - 使用scikit-learn库中的train_test_split()函数将数据集划分为训练集测试集,可以通过设置参数来控制划分比例。 7. 构造支持向量机模型并进行训练评估: - 导入scikit-learn库中的SVC类来构造支持向量机模型。 - 使用训练集对模型进行训练,调用fit()函数。 - 使用测试集对模型进行评估,调用score()函数或者其他评估指标函数。 8. 模型调优减少过拟合: - 对于支持向量机模型,可以调整超参数如C、kernel、gamma等来优化模型性能。 - 正则化可以通过设置SVC类的参数来实现,例如设置kernel='linear'来使用L1正则化。 9. 统计错误率: - 使用测试集对模型进行预测,调用predict()函数。 - 根据真实标签预测标签计算错误率。 请注意,以上步骤只是一个大致的流程示例,具体的实现细节会根据你的数据集具体需求而有所不同。你可以根据需要调整扩展这些步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值