Pandas入门必知！如何轻松设置DataFrame索引？

最新推荐文章于 2024-10-16 08:28:45 发布

原创最新推荐文章于 2024-10-16 08:28:45 发布 · 2.6k 阅读

CC 4.0 BY-SA版权

文章标签：

Pandas的DataFrame提供.set_index()方法将任意列设为索引，如将col2设为索引，提高数据可读性和查询效率。设置唯一索引能优化查找和操作，如join和groupby。若需恢复默认索引，可使用.reset_index()。

Pandas是Python最流行的数据分析库，其中的DataFrame是表格型数据的主要数据结构。 Pandas DataFrame默认的索引是整数索引，但是在很多场景下，我们需要设置一个更有意义的索引。

庆幸的是，Pandas提供了非常简便的方法来设置DataFrame的索引。我们只需要使用`.set_index()`方法，就可以将任意一列设置为DataFrame的索引。

举个例子，我们有这样一个DataFrame:

   col1  col2  col3
0     1     4     7
1     2     5     8 
2     3     6     9

要将`col2`设置为索引，只需要这样操作:

df = df.set_index('col2')

结果:

   col1  col3 
4     1     7
5     2     8 
6     3     9

可以看到，现在行索引变成了`col2`列的值，col2列也消失了。
这样设置索引有什么好处呢?主要有:

但是需要注意，设置的索引值必须是唯一的，不可以重复。否则，最终的索引会有重复值，数据也会出现问题。
如果要恢复默认整数索引，可以使用`.reset_index()`方法:

df = df.reset_index()

Pandas dataframe的索引是一个重要的概念，正确设置索引可以让我们的数据分析实现事半功倍的效果。