pandas学习之索引

最新推荐文章于 2024-12-18 18:34:20 发布

原创最新推荐文章于 2024-12-18 18:34:20 发布 · 201 阅读

0 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

12 篇文章

订阅专栏

感想

近期，公司业务繁忙，学习时间受限，只能插空看教材，然后有时间再把自己不会的知识点，用Notebook演练一把。有人会说，上班没时间可以周末呀，我们公司是单休，有时还要在周日加班整理下周周一开会需要的资料。

本周的知识点，看了两遍，习题无法全部完成，本次分享我的一些想法及个别题目的解题内容。

1、索引
索引是python中最重要的工具，会有很多索引方法，我们并不一定要全部完全掌握，但我们一定要熟练掌握其中2-3种，如loc和iloc，只有专精才能全通。
一般地，单层索引用起来方便舒适；平时使用习惯使用reset_index把多层索引转换为单层索引。
那什么情形下，会产生多层索引？主要是使用聚合类方法或函数时，比如groupby、pivot或pivot_table。

	练一练：
	select_dtypes 是一个实用函数，它能够从表中选出相应类型的列，若要选出所有数值型的列，只需使用 .select_dtypes('number') ，请利用布尔列表选择的方法结合 DataFrame 的 dtypes 属性在 learn_pandas 数据集上实现这个功能。

答案：df.select_dtypes('number')

参考资料：https://datawhalechina.github.io/joyful-pandas/build/html/%E7%9B%AE%E5%BD%95/ch3.html#id6

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

逆游的鲤鱼

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pandas构建复合索引数据（multiple index dataframe）、pandas索引复合索引dataframe数据

data+scenario+science+insight

02-06

902

pandas构建复合索引数据（multiple index dataframe）、pandas索引复合索引dataframe数据

Pandas系列学习教程——15 pandas分层索引MultiIndex

lzylzy66的博客

03-13

1095

随着人工智能的不断发展，数据分析这门技术也越来越重要，很多人都开启了学习数据分析，本文就介绍了pandas学习的基础内容。本章简单介绍了pandas分层索引MultiIndex。

参与评论您还未登录，请先登录后发表或查看评论

pandas的索引

qq_43662627的博客

08-28

286

#pandas的iloc是通过索引位置获取，修改数据 loc是通过标签修改数据 #获取第2行到第六行（索引为5）的第二列到第六列数据 d.iloc[2:5,[2,5]] #修改第二行第六列的数据 d.iloc[2,5]=70 #标签为B行E列的数据 d.loc["B","E"]=17 #布尔索引比较A列大于12的数据 d["A"]>12 d[(d["A"]>12)&(d["F"]>30)] ...

Pandas分类总结之：索引

seven的博客

09-01

2000

文章目录1. 索引器1.1 表的列索引1.2 序列的行索引1.3 loc索引器1.4 iloc索引器1.5 query方法1.6 随机抽样2. 多级索引2.1 多级索引和表的结构2.2 多级索引中的loc索引器2.3 IndexSlice对象2.4 多级索引的构造3. 索引的常用方法3.1 索引层的交换和删除3.2 索引属性的修改3.3 索引的设置与重置3.4 索引的变形4.索引运算4.1 一般的索引运算 1. 索引器 1.1 表的列索引 df[列名] ，返回值为Series，当列名不包含空格，可用 df.

pandas 索引详细操作

王小工小工历程

12-18

3028

Pandas中的索引（Index）是用于标识数据帧（DataFrame）和序列（Series）中的行的一种方式，类似于Python中的列表索引，但提供了更丰富的功能和更高的性能。

Pandas(十四)--索引操作

Hanscal

05-07

7967

目录索引Index 创建索引设置索引重置索引分层索引MultiIndex 创建分层索引应用分层索引分层索引切片取值聚合函数应用局部索引行索引层转换为列索引列索引实现分层交换层和层排序索引Index 通过索引(Index)可以从 DataFame 中选择特定的行数和列数，这种选择数据的方式称为“子集选择”。在 Pandas 中，索引值也被称为标签（label），它在 Jupyter 笔记本中以粗体字进行显示。索引可以加快数据访问的速度，它就好比数据的书签，

pandas 索引

qq_43192537的博客

03-08

779

一. loc方法的使用通过标签来获得 1. 取点取单点取不连续的多个点 2. 取行取单行取不连续的多行 3. 取列取单列取不连续的多列 4. 取连续的多行和不连续的多列二. iloc方法的使用通过位置来获取 5. 取行取单行 6. 取列取单列取不连续的多列 7. 取多行和多列取不连续的多行和多列取...

pandas中的索引和多层索引

weixin_47844457的博客

05-08

1261

索引分类 Index；单层索引； MultiIndex；多层索引；举例： import pandas as pd import numpy as np df = pd.DataFrame(np.random.rand(4, 4))*10//1 print(df) 输出结果为： 0 1 2 3 0 7.0 9.0 6.0 1.0 1 9.0 0.0 2.0 2.0 2 3.0 7.0 8.0 4.0 3 7.0 6.0 8.0 4.0

【Pythons学习】pandas按照索引删除行或列

sxl的博客

07-14

9019

2 根据索引或者行号删除行 3 参考文献 [1]Pandas DataFrame 删除指定列 [2]12_Pandas.DataFrame删除指定行和列（drop）

Python学习笔记之pandas索引列、过滤、分组、求和功能示例

09-19

在Python的pandas库中，数据处理是其核心功能之一，包括对数据的索引、过滤、分组和求和等操作。本篇学习笔记将深入探讨这些关键知识点，并通过实例展示如何使用pandas处理CSV数据。首先，我们来看如何使用pandas...

Pandas索引

jjwan123的博客

12-22

528

Pandas索引的基础知识自我补充可变序列与不可变序列: 复制列表和指向索引器一．列索引注：其中 x为多种类型的不同代称，我在手机端编辑，这边没有数据集为了方便统一写成了 x 列索引是最常见的索引方式，一般通过 [ ]来实现，通过 [列名] 可以从DataFrame中取出相应的列，返回值为Series df.= pd.read_csv(“data数据存储在你电脑的位置”, usecols = [“School”,”Grade”,”Name”,”Gende”,”weight”,”Transter

pandas-索引

wjsjjss的博客

04-22

1025

一、单级索引 1. loc方法、iloc方法、[]操作符最常用的索引方法可能就是这三类，其中iloc表示位置索引，loc表示标签索引，[]也具有很大的便利性，各有特点（a）loc方法（注意：所有在loc中使用的切片全部包含右端点！） ① 单行索引： df.loc[1103] ② 多行索引： df.loc[[1102,2304]] df.loc[1304:] df.loc...

pandas小记：pandas索引和选择

最新发布

03-14

<think>好的，我需要帮助用户了解如何使用Pandas进行布尔型索引过滤。首先，根据用户的问题，我应该先回顾一下布尔索引的基本概念和步骤。用户提到了教程，所以我需要确保回答结构清晰，分步骤说明。首先，布尔索引的核心是创建布尔掩码。我记得布尔掩码是一个由True和False组成的Series或数组，对应DataFrame中的每一行是否满足条件。比如，用户想筛选出工资大于60K的数据，就需要生成一个这样的掩码。这里需要注意比较运算符的使用，比如'>'，而且可能需要处理数据类型的问题，比如确保'salary'列是数值类型而不是字符串，否则比较可能会出错。不过用户提供的例子中用了字符串'60K'，这可能是个例子，实际应用中可能需要先将列转换为数值类型，比如用replace或者正则表达式处理。不过根据引用[2]中的示例，用户可能只是用字符串作为示例，所以暂时按照示例来，但可能需要提醒用户注意数据类型。接下来，应用布尔掩码到DataFrame上，使用df[boolean_mask]来过滤行。这里要强调逻辑运算符的正确使用，比如&、|、~，并且需要用括号来确保运算顺序，避免运算符优先级的问题。比如，当有多个条件时，每个条件都需要用括号括起来，否则会出错。例如(df['salary'] > '60K') & (df['department'] == 'Sales')，如果不加括号，Python可能会先计算'60K' & df['department']，导致错误。然后，用户可能需要处理多个条件组合的情况，这时候需要使用逻辑运算符，并且要注意位运算符和逻辑运算符的区别。在Pandas中，必须使用位运算符&、|、~，而不是and、or、not，因为后者是针对单个布尔值的，而位运算符可以处理Series中的每个元素。这一点需要特别强调，避免用户混淆。另外，用户可能会遇到需要处理缺失值的情况，比如在布尔索引中，NaN值如何处理。可以使用df['column'].notna()来排除缺失值，或者结合其他条件来过滤。但用户的问题中可能暂时不需要涉及缺失值处理，不过作为教程的一部分，可能需要简要提及。接下来，根据引用[2]中的例子，用户给出了一个使用布尔掩码的示例，其中将salary与'60K'比较。但实际中，如果salary是字符串类型如'60K'，可能需要提取数值部分进行比较。比如，先将'salary'列转换为数值，使用str.replace('K', '').astype(int) * 1000，这样比较起来更准确。不过这可能超出布尔索引本身的范围，属于数据预处理的步骤。是否需要提到这一点呢？可能作为最佳实践或注意事项，提醒用户确保数据类型正确，否则比较可能不会按预期工作。然后，我需要提供示例代码，确保符合用户的要求。根据用户提供的引用，示例代码应该使用正确的语法，比如df[df['salary'] > '60K']。同时，可能还需要展示多个条件的组合，比如同时满足工资大于60K且部门为销售的情况，或者使用OR条件的情况。此外，用户可能需要知道如何否定条件，即使用~运算符来选择不满足条件的行。例如，df[~(df['department'] == 'HR')]会筛选出部门不是HR的行。最后，可能需要提及一些常见的错误和解决方法，比如多个条件不加括号导致的错误，或者使用and/or而不是&/|的问题。同时，引用相关的参考资料，如引用[2]中的示例，以及引用[3]中的学习资料链接，帮助用户进一步学习。总结回答的结构应该是： 1. 布尔索引的基本概念：创建布尔掩码，应用掩码过滤行。 2. 单条件过滤示例。 3. 多条件组合（与、或、非）的使用方法及注意事项。 4. 常见问题及解决方法（如数据类型、运算符优先级、处理缺失值）。 5. 示例代码演示。 6. 参考资料推荐。现在需要检查是否有遗漏的点，比如isin()方法、query()方法，但用户的问题集中在布尔索引，可能不需要涉及其他方法。但如果有相关的高级技巧，也可以简要提及，比如使用isin()生成布尔掩码。另外，需要确保所有行内数学表达式使用$...$格式，但在这个问题中可能不涉及数学公式，更多的是代码和逻辑操作。但如果有涉及，比如数据分布的描述，可能需要用LaTeX，比如平均值$\mu$等，但这里可能不需要。最后，生成相关问题，参考用户提供的示例，问题应该围绕布尔索引的扩展，如多条件处理、性能优化、与其他方法的比较等。</think>### 使用Pandas进行布尔型索引过滤的教程 #### 1. 基本概念 **布尔索引**是通过布尔值（`True`/`False`）构成的掩码（Mask）筛选数据的方法。其核心步骤为： - **生成布尔掩码**：通过比较运算符（如`>`、`==`）或逻辑运算符（`&`、`|`、`~`）生成布尔序列。 - **应用掩码**：将布尔序列传递给DataFrame的行索引器`df[boolean_mask]`，仅保留`True`对应的行。 #### 2. 单条件过滤示例假设DataFrame包含薪资列`salary`，筛选薪资大于60K的行： ```python import pandas as pd # 示例数据 df = pd.DataFrame({'salary': ['50K', '65K', '70K', '55K'], 'department': ['HR', 'Sales', 'IT', 'Finance']}) # 布尔索引过滤 filtered_df = df[df['salary'] > '60K'] # 注意：此处按字符串比较，实际需转换为数值 print(filtered_df) ``` 输出： ``` salary department 1 65K Sales 2 70K IT ``` > **注意**：若`salary`为字符串（如`'60K'`），直接比较可能不准确。建议转换为数值： > ```python > df['salary_num'] = df['salary'].str.replace('K', '').astype(int) * 1000 > filtered_df = df[df['salary_num'] > 60000] > ``` #### 3. 多条件组合使用逻辑运算符时，**每个条件需用括号包裹**以避免优先级错误： ```python # 筛选薪资>60K且部门为Sales的行 filtered_df = df[(df['salary'] > '60K') & (df['department'] == 'Sales')] # 筛选薪资>60K或部门为IT的行 filtered_df = df[(df['salary'] > '60K') | (df['department'] == 'IT')] # 排除部门为HR的行 filtered_df = df[~(df['department'] == 'HR')] ``` #### 4. 常见问题与解决 - **错误：`&`与`and`混淆** Python的`and`、`or`不能用于Series，必须使用`&`、`|`，且每个条件需用括号分隔。 - **处理缺失值** 结合`notna()`过滤缺失值： ```python filtered_df = df[(df['salary'] > '60K') & df['department'].notna()] ``` - **优化性能** 对大型数据集，优先使用向量化操作，避免逐行循环[^2]。 #### 5. 扩展方法 - **`isin()`方法**：筛选列值属于某个集合的行 ```python filtered_df = df[df['department'].isin(['Sales', 'IT'])] ``` - **`query()`方法**：用字符串表达式简化复杂条件 ```python filtered_df = df.query("salary > '60K' and department == 'Sales'") ``` #### 6. 学习资源推荐 - Pandas官方教程：[链接](https://bitbucket.org/hrojas/learn-pandas)[^3] - 布尔索引实践案例：[引用示例](https://bitbucket.org/hrojas/learn-pandas) ---