饺子大人-优快云博客

原创饺子大人的Python-Pandas

饺子大人的Python-Pandas我假设你已经有了一定的python基础，而是在日常的使用中为不知道某个函数的功能而发愁的小伙伴。以下是我总结分享出Numpy的一些函数的使用方法。希望能够帮助到大家。如果您觉得我分享的内容对您有点帮助的话，请点赞收藏吧。肯定有错，当然不全，但按你胃(Anyway)，成长的路上就是要不断的犯错。博客中的代码都可以在我的GitHub中找到，需要的小伙伴请移步我的GitHub：https://github.com/DumplingsMajesty饺子大人的Pyth

2020-06-09 13:29:59 921 1

原创饺子大人的Python-Numpy

Python-Numpy我叫饺子大人，当然这不是我的真名，只是因为我喜欢吃饺子而已。学生时不懂python，不懂Machine Learning，更不懂人工智能。所以，工作后开始了我漫长的自学之路。我很欣赏网上那些默默奉献的人们, 分享自己所学的东西给了我很大的帮助。所以我决定我也要像那些奉献的人们一样, 将我的所学奉献给大家~我将假设你已经有了一定的python基础，而是在日常的使用中为不知道某个函数的功能而发愁的小伙伴。在此我先总结分享出Numpy和Pandas的一些函数的使用方法。再总结个人的一些

2020-05-10 10:32:51 643 1

原创 01_Python的in运算符判断列表等是否包含特定元素

Python中的in运算符用于判断元素是否存在于列表、元组、集合等可迭代对象中。它能根据值相等性进行判断，支持在if语句中使用，并可通过not in进行否定判断。对于字典，in检查键而非值；对字符串则检查子串。当需要判断多个元素时，可结合and/or或使用集合运算。性能方面，列表的in操作是O(n)复杂度，而集合和字典的in操作是O(1)复杂度，因此在大数据量时应优先使用集合。in运算符还常用于for循环和列表推导式中。

2025-08-23 21:56:36 1115

原创 81_Pandas.DataFrame各列之间的相关系数，并用热图可视化

本文介绍了如何使用pandas计算DataFrame各列间的相关系数，并通过seaborn进行可视化。主要内容包括：1）使用corr()方法计算列间相关性，自动排除非数值列；2）处理缺失值时的计算规则；3）可通过method参数选择不同相关系数计算方法；4）使用seaborn.heatmap()绘制相关性热图，并以房价数据集为例展示实际应用。该方法适用于机器学习预处理阶段快速分析变量关系。

2025-07-20 21:42:59 599

原创 80_Pandas如何使用NumPy的函数等（pd.np）

在导入pandas的同时也会导入NumPy模块，并且可以通过pd.np访问NumPy模块。仅通过导入pandas就可以使用NumPy的函数等，而无需显式导入NumPy。当使用Jupyter Notebook等工具导入pandas时，如果需要使用NumPy的函数等，不需要额外导入NumPy，因此在编写临时代码时非常方便。当然，如果需要多次使用NumPy的函数等，为了代码更加清晰，建议显式导入NumPy。以下内容将会进行说明：pd.np与np是同一个对象pd.np的使用方法。

2025-04-12 21:28:54 542

原创 79_pandas中的累积和与累积积（cumsum, cumprod, cummax, cummin）

pandas中的累积和与累积积（cumsum, cumprod, cummax, cummin）要在pandas中生成累积和或累积积，可以使用pandas.DataFrame和Series的cumsum()、cumprod()方法。除了cumsum()和cumprod()，还有用于计算累积最大值和最小值的cummax()和cummin()方法。累积和与累积积也可以通过Python的标准库itertools或NumPy的函数和方法生成。使用itertools可以对任意函数进行累积应用。

2025-03-20 16:24:31 1278

原创 78_Pandasagg()和aggregate()的用法

通过使用pandas.DataFrame和Series的agg()或aggregate()方法，可以对行或列同时应用多个操作进行聚合。agg()是aggregate()的别名，二者用法相同。

2025-03-10 16:09:34 1204

原创 77_Pandas获取n个最大值和最小值（nlargest, nsmallest）

要从pandas的DataFrame或Series中获取n个最大值或最小值（从大到小或从小到大排序的n个元素），可以使用nlargest()和方法。

2025-02-05 15:25:54 1265

原创 76_Pandas.DataFrame与Series的相互转换

本文介绍如何在pandas中实现DataFrame和Series的相互转换。虽然使用了“转换”一词，但实际上是指从Series生成DataFrame，或将DataFrame的列或行作为Series获取的操作。目录如文末所述，原始对象与生成或获取的对象可能共享内存，因此修改一方的元素可能会影响另一方的元素，需要注意。关于DataFrame和Series与NumPy数组ndarray或Python内置列表list的相互转换方法，请参考以下文章：本文示例代码中使用的pandas版本如下。

2024-12-27 14:06:50 1460

原创 75_pandas.DataFrame 中查看和复制

与pandas的DataFrame与NumPy数组ndarray类似，也有视图（view）和拷贝（copy）。当使用loc[]或iloc[]等选择DataFrame的一部分以生成新的DataFrame时，与原对象共享内存的对象称为视图，与原对象分开重新分配内存的对象称为拷贝。由于视图引用的是共同的内存，因此当一个对象的元素值被修改时，另一个对象的值也会被修改。目录本文的示例代码中使用的pandas和NumPy版本如下。注意，由于版本不同，可能会有不同的规格。

2024-12-12 17:16:18 961

原创 25_NumPy数组np.round将ndarray舍入为偶数

使用 np.round() 将 NumPy 数组 ndarray 的元素值舍入为任意位数。请注意，0.5 由于舍入到偶数而不是一般舍入而舍入为 0.0。本文介绍了一般舍入的实现示例。

2024-05-14 21:04:08 954

原创 74_Pandas median获取中位数

使用median()方法获取pandas.DataFrame、pandas.Series的中值（1/2分位数、第50个百分位数）。中位数的定义如下。本节解释以下内容。

2024-04-30 09:45:08 794

原创 73_Pandas获取分位数/百分位数

使用 quantile() 方法获取 pandas 中 DataFrame 或 Series 的分位数/百分位数。目录本文示例代码的pandas版本如下。请注意，规格可能因版本而异。以下面的DataFrame为例。

2024-03-19 22:05:40 3380

原创 72_Pandas.DataFrame保存并读取带pickle的系列（to_pickle、read_pickle）

pickle 是 Python 标准库中包含的一个模块，用于将 Python 对象转换为字节（序列化、pickling）以及从字节转换为 Python 对象（反序列化、unpickling）。为了方便起见，这里将经过 pickle 并保存的文件称为 pickle 文件。

2024-02-27 21:00:07 3659 1

原创 71_Pandas.DataFrame排名

使用rank()方法对pandas.DataFrame和pandas.Series的行/列进行排名。sort_values() 是一种按升序或降序对 pandas.DataFrame 列和 pandas.Series 进行排序的方法，但rank() 返回每个元素的排名而不对数据进行排序。请参阅下面的文章了解 sort_values()。在此对以下内容进行说明。以下面的 pandas.DataFrame 为例。

2024-02-08 20:59:02 1365

原创 70_Pandas中获取最大最小值的行名和列名

使用 idxmax() 和 idxmin() 方法获取 pandas.DataFrame 和 pandas.Series 中每列和行的最大值和最小值元素的行名和列名。pandas.DataFrame 和 pandas.Series 都有 idxmax() 和 idxmin() 方法。在此对以下内容进行说明。注意，行号和列号可以从行名和列名中获得。请参阅下面的文章。以下面的 pandas.DataFrame 为例。选择一列并将其用作 pandas.Series 的示例。

2024-01-26 21:48:05 2286

原创 69_Pandas.DataFrame获取行号和列号

将讲解如何从pandas.DataFrame的行名和列名中获取行号和列号，以及如何从列元素的值中获取行名和行号。下面对内容进行说明。如果想从行号或列号中获取行、列或元素的值，请参考下面的文章。以下面的 pandas.DataFrame 为例。

2024-01-15 14:13:41 5733

原创 68_Pandas.Series 索引和值的交换

将解释如何交换 pandas.Series 的索引（标签）和值。以下面的 pandas.Series 为例。导入timeit模块来测量处理速度。下面对内容进行说明。

2024-01-05 16:31:04 722

原创 67_Pandas将切片应用于字符串，以提取任意位置和长度的部分

使用负值来指定结束。

2023-11-26 21:35:39 3721

原创 66_Pandas如何检查和更改选项设置

使用 pandas，可以通过更改选项设置来自定义行为和显示。解释如何检查和更改各种设置值。在此对以下内容进行说明。

2023-10-31 21:41:46 420

原创 65_Pandas显示设置（小数位数、有效数字、最大行/列数等）

本文介绍了使用 print() 函数显示 pandas.DataFrame、pandas.Series 等时如何更改设置（小数点后位数、有效数字、最大行/列数等）。有关如何检查、更改和重置设置值的详细信息，请参阅下面的文章。设置更改仅在同一代码（脚本）内有效。它不会被永久重写，并在其他代码中再次成为默认设置。即使在同一代码中，您也可以临时更改 with 块中的设置。这里说明的只是显示时的设置，原始数据值本身不会改变。如果您想对数字进行四舍五入或将其转换为指定格式的字符串，请参阅下面的文章。导入以下库。

2023-10-20 21:08:40 4623

原创 64_Pandas进行字符串和数字的相互转换和格式化

本文介绍如何在 pandas.DataFrame 和 pandas.Series 中进行字符串和数字之间的转换，以及如何更改字符串的格式。下面对内容进行说明。

2023-10-10 14:21:58 11390 1

原创 63_Pandas中数字的四舍五入

要对 pandas.DataFrame、pandas.Series 的数字进行四舍五入，请使用 round() 方法。round() 方法舍入为偶数而不是四舍五入。如果要四舍五入，请将标准库十进制模块的 quantize() 应用于每个元素。本示例代码中的各个版本如下。下面对内容进行说明。

2023-08-20 20:31:46 2707

原创 62_Pandas有条件地提取 pandas.DataFrame 的行

使用query()方法根据pandas.DataFrame的列值的条件提取行。它很方便，因为您可以使用比较运算符和字符串方法以及多个条件的组合来简洁地描述条件规范。目录有关布尔索引的条件指定，请参阅以下文章。本文示例代码的pandas版本为2.0.3版本。请注意，行为可能因版本而异。

2023-07-16 21:35:58 8311

原创 61_Pandas中将列表存储和处理为 pandas 中的元素

作为 pandas.DataFrame 的一个元素，Series，你可以存储列表，这是 Python 的内置类型。例如，对于由分隔符分隔的字符串，列出它们可能比用字符串方法处理它们更方便。在此，对以下内容进行说明。以下面的 pandas.DataFrame 为例。

2023-05-14 20:13:38 2939

原创 60_Pandas中是否包含判断缺失值NaN并统计个数

无法检测缺失值。因此，从isnull()结果的values属性(numpy.ndarray)调用sum()，可以得到缺失值的总数(total number)。由于sum()被处理为True=1，False=0，通过对isnull()的结果应用sum()，我们可以统计每行和每列缺失值NaN的个数。可以从 notnull() 或 notna() 产生的值属性 (numpy.ndarray) 调用 sum()（对于非缺失元素为真）。isnull() 是 isna() 的别名，两者用法相同。

2023-04-28 22:00:42 3657

原创 59_Pandas中使用describe获取每列的汇总统计信息（平均值、标准差等）

使用 pandas.DataFrame 和 pandas.Series 的 describe() 方法，您可以获得汇总统计信息，例如每列的均值、标准差、最大值、最小值和众数。在此，对以下内容进行说明。示例代码中，以每列具有不同类型 dtype 的 pandas.DataFrame 为例。

2023-04-10 20:33:23 11860

原创 58_Pandas中mode获取pandas的每一行和列

使用pandas.Series和pandas.DataFrame的mode()方法，可以得到每一列每一行的mode。在此，对以下内容进行说明。

2023-03-26 20:20:44 1958

原创 57_Pandas中的json_normalize将字典列表转换为DataFrame

可以使用 pandas.json_normalize() 将具有公共键的字典列表转换为 pandas.DataFrame。由于它是一种常用的JSON格式，可以通过Web API获取，所以能够将其转换为pandas.DataFrame是非常方便的。在此，对以下内容进行说明。使用 pandas.read_json() 直接读取 JSON 字符串或文件作为 pandas.DataFrame 而不是由字典或列表组成的对象。

2023-02-25 20:01:03 2115 1

原创 56_Pandas读取 JSON 字符串/文件 (read_json)

使用pandas.read_json()函数，可以将JSON格式字符串（str类型）和文件读取为pandas.DataFrame。它还支持 JSON 行 (.jsonl)。读取成pandas.DataFrame后，可以做各种数据分析，也可以用to_csv()方法保存成csv文件，这样就可以很方便的通过pandas将JSON文件转为CSV文件。在此，对以下内容进行说明。

2023-01-04 22:01:31 13279

原创 55_Pandas.DataFrame 转换为 JSON 字符串/文件并保存 (to_json)

使用pandas.DataFrame的方法to_json()，可以将pandas.DataFrame转为JSON格式字符串（str类型）或者输出（保存）为JSON格式文件。在此，对以下内容进行说明。有关其他参数，请参阅上面的官方文档。如果要将 pandas.DataFrame 转换为字典（dict 类型），请使用 to_dict() 方法。另外，用pandas读写（输入/输出）CSV文件和Excel文件见以下文章。这里以创建如下 pandas.DataFrame 为例。

2022-11-30 15:06:46 21751

原创 54_Pandas将DataFrame、Series转换为字典 (to_dict)

pandas.DataFrame、pandas.Series可以使用to_dict()方法转换为字典（dict类型对象）。对于pandas.DataFrame，参数orient可以用来指定pandas.DataFrame的行标签索引、列标签列和值如何分配给字典的键和值。在 pandas.Series 的情况下，它被转换为以标签作为键的字典。此处解释以下内容。创建以下 pandas.DataFrame 作为示例。

2022-11-24 14:33:18 11558

原创 53_Pandas中的条件替换值（where, mask）

我会解释如何在pandas中根据条件赋值。虽然它不使用 if 语句，但它可以处理条件分支，如 if then … 或 if then … else …。具体值的替换见后面的文章，替换或删除缺失值NaN。以下面的 pandas.DataFrame 为例。以下内容进行说明。

2022-11-19 16:04:08 7641

原创 52_Pandas处理日期和时间列（字符串转换、日期提取等）

将解释如何操作表示 pandas.DataFrame 的日期和时间（日期和时间）的列。字符串与 datetime64[ns] 类型的相互转换，将日期和时间提取为数字的方法等。以下内容进行说明。

2022-11-05 15:04:16 26096

原创 51_Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)

Pandas (to_excel) 编写 Excel 文件 (xlsx, xls)

2022-08-23 13:41:25 4438

原创 50_Pandas读取 Excel 文件 (xlsx, xls)

50_Pandas读取 Excel 文件 (xlsx, xls)要使用 pandas 将 Excel 文件（扩展名：.xlsx、.xls）作为 pandas.DataFrame 读取，请使用 pandas.read_excel () 函数。这里，将描述以下内容。openpyxl、xlrd的安装pandas.read_excel()的基本用法通过编号/工作表名称指定要读取的工作表：参数 sheet_name读取一张Sheet读取多张Sheet加载所有Sheet指定标头、索引：参数he

2022-05-19 16:16:30 76804 3

原创 49_Pandas.DataFrame添加列和行（分配、追加等）

49_Pandas.DataFrame添加列和行（分配、追加等）如何向 pandas.DataFrame 添加新的列或行。通过指定新的列名/行名来添加，或者用pandas.DataFrame的assign()、insert()、append()方法添加等方法。这里，将描述以下内容。将列添加到 pandas.DataFrame通过指定新列名添加用assign()方法添加/分配用insert()方法添加到任意位置使用 concat() 函数水平连接 Series 和 DataFrame

2022-01-06 10:06:57 48359 1

原创 48_Python列表和数组与numpy.ndarray的区别和使用方法

48_Python列表和数组与numpy.ndarray的区别和使用方法Python 在标准库中有一个列表作为内置类型和一个数组数组。您还可以通过安装数值库 NumPy 来使用多维数组 numpy.ndarray。我将解释它们之间的区别以及如何正确使用它们。我将解释它们之间的区别以及如何正确使用它们。列表和数组与 numpy.ndarray之间的差异列表 --list数组 --array多维数组 --numpy.ndarray教条主义和偏见的不同用法数据分析库pandas最后，我

2021-11-19 09:09:54 3652

原创 47_Pandas使用cut和qcut函数进行分箱处理

47_Pandas使用cut和qcut函数进行分箱处理分箱处理（bin Division）是将连续值除以任意边界值，将其划分为类别，再将其转换为离散值的处理。它通常作为机器学习的预处理完成。比如有一个过程，比如将年龄数据分为十几岁和二十几岁。根据值拆分：cut()按数量拆分：qcut()它们是有区别的。在这里，下面的内容将讲解如何使用pandas.cut()和pandas.qcut()。等分或任意边界值的分箱过程：cut()以相等的间隔除以最大值和最小值通过指定边界值拆分获取边界值列

2021-09-30 10:39:25 9042 1

原创 46_Pandas,Python,Seaborn热图的生成

46_Pandas,Python,Seaborn热图的生成Python 的可视化库 seaborn 可以轻松创建可视化 2D 数据的热图。使用 seaborn.heatmap() 函数。Pandas 不是必须的，但是如果使用pandas.DataFrame 作为2D 数据，行列名会显示为x 轴和y 轴标签，很方便。这里，将描述以下内容。seaborn.heatmap()函数的基本用法作为对象操作seaborn.heatmap() 函数的主要参数显示编号：annot显示/隐藏颜色条

2021-08-12 13:58:48 4649

空空如也

空空如也