
数据分析与可视化
文章平均质量分 75
XYX的Blog
太原理工大学
展开
-
Matplotlib基础02-常用图像绘制(折线图/散点图/柱状图/直方图/饼图/箱线图/热图/极坐标图/雷达图/填充图)
要绘制簇型柱状图,您需要将两组数据在相同类别下进行并排显示,而不是重叠在一起。折线图是最常见的图形之一,适用于展示数据随时间或其他变量变化的趋势。填充图展示数据之间的区域,常用于展示函数曲线下方的面积。的位置,并通过调整宽度来使柱状图并排显示。箱线图用于展示数据的分布情况,特别是异常值和中位数。柱状图适用于显示不同类别数据的比较。热图适用于展示二维数据的强度或密度。散点图用于显示两个变量之间的关系。饼图适用于展示各部分占整体的比例。极坐标图用于展示极坐标系下的数据。直方图用于展示数据的分布情况。原创 2025-02-06 21:53:38 · 368 阅读 · 0 评论 -
Matplotlib基础01( 基本绘图函数/多图布局/图形嵌套/绘图属性)
Matplotlib是一个用于绘制静态、动态和交互式图表的Python库,广泛应用于数据可视化领域。它是Python中最常用的绘图库之一,提供了多种功能,可以生成高质量的图表。Matplotlib是数据分析、机器学习等领域数据可视化的重要工具,广泛应用于科研、教学、报告等多种场景。plt.xlim()和plt.ylim()或plt.axis()设置坐标的范围。原创 2025-02-06 21:51:08 · 673 阅读 · 0 评论 -
Pandas基础08(分箱操作/时间序列/画图)
是一种数据预处理方法,用于将连续型变量的数值范围分割成若干个区间或“箱”(bins),将数据按照这些区间进行分类,从而转换为离散型变量。这种方法常用于将数据的变化范围缩小,使其更加适合某些分析或模型算法的处理,或通过减少异常值的影响来提高模型的稳定性。例如,将数据范围从0到100分为5个区间,每个区间的宽度为20。向下采样:将数据从高频率的时间序列转变为低频率,比如从小时数据转换为日数据。向上采样:将数据从低频率的时间序列转换为高频率,比如从日数据转换为小时数据。通过plot()函数绘制折线图。原创 2025-02-03 16:01:40 · 390 阅读 · 0 评论 -
Pandas基础07(Csv/Excel/Mysql数据的存储与读取)
在数据科学和机器学习的流程中,数据的加载与存储是非常重要的一环。Pandas是Python中用于数据处理的强大库,它提供了多种方式来加载和保存数据,支持不同的数据格式,如CSV、Excel以及数据库(例如MySQL)。CSV(逗号分隔值)是最常见的数据存储格式之一,Pandas提供了简便的API来将数据存储为CSV文件以及从CSV文件加载数据。Excel文件是另一种常见的数据存储格式,Pandas提供了很方便的方法来处理Excel文件。方法可以读取CSV文件并将其转换为DataFrame。原创 2025-02-01 10:18:05 · 824 阅读 · 0 评论 -
Pandas基础06(异常值的检测与过滤/抽样/常用聚合函数/数据聚合)
本文将介绍如何利用 Pandas 中的一些常见函数,检测、处理和过滤数据中的异常值,同时对数据进行基本的处理和探索。通过这些信息,我们可以初步识别数据中的异常值。标准差较大的列可能存在更多的异常值,因为数据点的波动幅度较大。函数可以根据某列的值对数据进行排序,帮助我们识别最大或最小值,从而找到异常值。如果某一列的标准差非常大,且数据的分布范围较广,则可能存在一些离群点或异常值。函数来计算每列数据的标准差,并作为识别异常值的一个辅助指标。通过排序,我们可以快速发现某列的极端值,进而识别可能的异常值。原创 2025-01-31 10:47:30 · 457 阅读 · 0 评论 -
Pandas基础05(数据的映射/replace()、rename()、map()、apply() 和 transform())
本文将介绍几个常用的映射函数,并展示它们在实际数据处理中的应用。函数在 Pandas 中非常常用,用于替换 DataFrame 或 Series 中的指定值。这个方法特别适用于对 DataFrame 或 Series 中的数值进行批量替换。使得我们能够轻松地重命名 DataFrame 的行索引和列索引,帮助我们使数据集更符合业务需求。的方法,它非常适合处理某一列数据的映射操作。可以处理数据框中的每一列或每一行,执行复杂的操作。函数,这些都是非常常见的用于数据映射的操作。在这个示例中,我们通过自定义的。原创 2025-01-27 10:48:07 · 305 阅读 · 0 评论 -
Pandas基础04(缺失值处理/重复数据处理)
缺失值是指数据集中缺少的数值,它通常以None或np.nan表示。None:是 Python 中的空对象,类型为object,通常不参与计算,计算时可能会耗时较长。np.nan:是 Pandas 中表示缺失数据的标准值,类型为float,可以参与计算,但会导致结果为空。原创 2025-01-26 19:18:30 · 898 阅读 · 0 评论 -
Pandas基础03(数据的合并操作/concat()/append()/merge())
区别:merge与concat的区别在于,merge需要依据某一共同的行或列来进行合并使用pd.merge0合并时,会自动根据两者相同column名称的那一列,作为key来进行合并。进行一对一、一对多、多对多等合并操作,还可以灵活地指定合并的列、使用不同的连接方式(如内连接、外连接),以及处理列名冲突等问题。)进行合并,即水平合并。一对多合并是指一个键值在一个 DataFrame 中是唯一的,而在另一个 DataFrame 中出现多次。在多对多合并的场景中,两个 DataFrame 中的键都会出现多次,原创 2025-01-26 11:23:47 · 961 阅读 · 0 评论 -
Pandas基础02(DataFrame创建/索引/切片/属性/方法/层次化索引)
DataFrame以字典的键作为每一【列】的名称,以字典的值(一个数组)作为每一列。同Series一样,若传入的列与字典的键不匹配,则相应的值为NaN。Pandas 的层次化索引(Hierarchical Indexing)允许在一个 DataFrame 或 Series 中使用多个索引级别。索引堆叠通常指的是对 DataFrame 或 Series 的 层次化索引(MultiIndex) 进行堆叠和展开操作。这种操作可以将数据的索引层级转换,或是将数据的多个层级组合成一个新的层级。(1)索引:先列后行。原创 2025-01-25 18:33:34 · 844 阅读 · 0 评论 -
Pandas基础01(Series创建/索引/切片/属性/方法/运算)
是一个功能强大的数据分析和操作库,主要用于处理和分析表格型数据(例如:CSV、Excel、SQL数据库等)。它建立在 NumPy 基础上,提供了许多便捷的数据结构,主要是。是一种类似于一维数组的对象,它包含了一组数据(可以是整数、浮点数等)以及与之相关的标签(索引)。Series由一组数据(values)和数据的索引标签(index)构成。看作一个带有索引的一维数组。,用于处理和分析数据。原创 2025-01-25 18:32:27 · 357 阅读 · 0 评论 -
Numpy基础02(Numpy对数组的基本操作)
矩阵可以与标量相乘或相除,这将导致矩阵中每个元素与标量进行运算。只有在矩阵是方阵并且行列式不为零时,矩阵才有逆矩阵。矩阵的特征值和特征向量是线性代数中的重要概念,可以使用。np.sort():不改变原数组,而是返回一个新的数组。的数组无法广播,因为在第一个维度上它们的大小不匹配。来计算,行列式是判断矩阵是否可逆的重要标志。矩阵的逆是一个常见的操作,它可以通过。属性来实现,它将矩阵的行和列交换。的数组进行运算,后者会被视为。的数组进行运算,较小的数组。矩阵的行列式可以通过。,直到它们的形状匹配。原创 2025-01-23 19:45:33 · 741 阅读 · 0 评论 -
Numpy基础01(Jupyter基本用法/Ndarray创建与基本操作)
可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库,包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等。IPython 是一个增强型的 Python 交互式解释器,提供了自动补全、命令历史、魔法命令等功能。IPython 还支持远程访问、包管理和插件扩展,是一个功能强大且灵活的开发工具。:适合对运行时间短的程序求其平均运行时间。:适合对运行时间长的程序进行统计。原创 2025-01-20 22:09:46 · 710 阅读 · 0 评论