
pandas
文章平均质量分 73
叶阿猪
这个作者很懒,什么都没留下…
展开
-
【python】pandas数据清洗(四):使用回归分析预测异常值
回归分析是一种统计方法,用于确定一个或多个自变量(X)与一个因变量(Y)之间的关系。在回归模型中,我们试图找到一个函数f,使得对于给定的自变量X,f(X)能够尽可能准确地预测因变量Y的值。回归方法包括但不限于线性回归、多项式回归、岭回归、Lasso回归和Elastic Net回归等。原创 2024-07-02 22:12:12 · 844 阅读 · 0 评论 -
【python】pandas数据清洗(三):修剪(Trimming)与顶底处理(Capping)详解
在数据分析和数据科学项目中,数据清洗是不可或缺的步骤,其目的是提高数据质量,使数据更加准确、一致和可靠。在数据清洗的过程中,处理极端值(也称为异常值或离群点)是一项关键任务。极端值可能是由测量误差、数据录入错误、系统故障或其他非正常情况导致的。这些值可能会扭曲数据分析的结果,因此需要特别注意。本文将持续介绍数据清洗的技巧。修剪是指直接从数据集中移除那些被识别为异常值的数据点。这种策略通常适用于数据集足够大,以至于删除少数几个极端值不会对总体统计特性产生显著影响的情况。原创 2024-07-02 21:57:23 · 695 阅读 · 0 评论 -
【python】pandas数据清洗(三):Z-Score 方法识别异常值
Z-Score,又称为标准分数,是统计学中用于表示一个值与数据集均值之间的偏差程度的一种度量。具体而言,Z-Score 是一个观测值减去均值后,再除以标准差的结果。Z-Score 可以告诉我们这个观测值在标准正态分布中处于什么位置。数学表达式如下:( X ) 表示单个观测值,( \mu ) 表示观测值所在样本的均值,( \sigma ) 表示样本的标准差。原创 2024-07-02 21:40:31 · 2444 阅读 · 0 评论 -
【python】pandas数据清洗(二):箱线图分析与IQR的深度解析
数据清洗的目标是识别并修正数据集中的错误、不一致或无关的信息,从而提高数据质量和分析结果的可靠性。其中,异常值的检测和处理是一项关键任务,而箱线图分析和IQR(四分位距)技术为此提供了强大的工具。IQR是衡量数据集中趋势以外部分的离散程度的一个重要指标,不受极端值的影响。因此,它是识别异常值的理想工具。通过理解箱线图的结构和IQR的计算方法,可以更加精确地检测数据集中的异常值,并采取适当的策略进行处理。通过上述步骤,不仅能够识别数据集中的异常值,还能有效清洗数据,提高后续数据分析的准确性和可靠性。原创 2024-07-02 21:29:15 · 776 阅读 · 0 评论 -
【python】pandas数据清洗(一)
在Pandas中进行数据清洗是非常重要的步骤,以确保数据分析的质量和准确性。本文将详细介绍如何使用, 和进行数据预处理。原创 2024-07-02 12:28:34 · 633 阅读 · 0 评论 -
【python】pandas数据统计:了解数据分布
本文主要介绍如何使用df.mean()df.sum()df.max(), 和df.min()。原创 2024-07-01 18:10:02 · 1374 阅读 · 0 评论 -
【python】Pandas 中的.loc和.iloc介绍
在 Pandas 中,标签(labels)是指用来标识 DataFrame 或 Series 中行和列的唯一标识符。在 Pandas 的数据结构中,标签可以是任意哈希类型的对象,最常见的就是字符串和整数,但也可以是日期时间、元组等。标签在 DataFrame 中构成了行索引和列索引。原创 2024-07-01 17:37:50 · 532 阅读 · 0 评论 -
【python】pandas:DataFrame合并技巧详解
本文介绍了Pandas库中DataFrame合并的几种常用方法,包括基于键的合并(merge)、沿着轴合并(concat)、基于索引的合并(join)以及追加行(append)。本文将详细介绍Pandas库中DataFrame合并的几种常用方法,包括基于键的合并(merge)、沿着轴合并(concat)、基于索引的合并(join)以及追加行(append)。基于键的合并是最常用的DataFrame合并方法之一。它类似于SQL中的JOIN操作,可以根据两个DataFrame之间的共同列(键)进行合并。原创 2024-06-17 12:54:05 · 4673 阅读 · 1 评论 -
【python】pandas:自定义列名
在Pandas中读取文件时,可以通过以下两种方式自定义列名,本文以读取CSV文件为例。原创 2024-06-17 12:41:05 · 1097 阅读 · 0 评论 -
【python】pandas:Series详解
Series是一个一维的、大小可变的、可以包含任何数据类型的数组,以及与之相关的一组数据标签(索引)。Series对象可以被看作是一个字典对象,其中包含了数组的数据和与这些数据相关联的索引。但与字典不同的是,Series中的索引是固定的,且是有序的。Series是Pandas库中的一个核心数据结构,用于处理一维数组型数据,并带有与之相关的数据标签(通常称为“索引”)。Series可以被视为一个固定大小的、有序的、可以包含任何数据类型的数组。原创 2024-06-17 08:50:31 · 1367 阅读 · 0 评论 -
【python】pandas:DataFrame详解
DataFrame是一个二维的表格型数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值等)。DataFrame可以被视为一个电子表格或SQL表,或是由多个Series对象组成的字典(这些Series对象共享一个索引)。原创 2024-06-17 08:40:44 · 1266 阅读 · 0 评论 -
【python】pandas常见文件读取方法
pandas是一个强大的Python数据分析库,它提供了多种读取文件的方法,支持多种文件格式。以下是pandas中常见的一些文件读取方法及其详细说明、常用参数、代码示例和数据示例。原创 2024-06-16 22:13:43 · 3822 阅读 · 0 评论