使用 Pandas 处理数据框
在数据科学领域,数据科学家常常需要处理以表格形式存储的数据。数据框(Dataframe)是一种广泛用于表示数据表的方式,而 Pandas 则是 Python 中处理数据框的标准库。
1. 数据框基础
数据框中的每一行代表一条记录,每一列代表记录的一个特征。例如,下面是一个包含流行犬种信息的数据框:
| breed | grooming | food_cost | kids | size |
| — | — | — | — | — |
| Labrador Retriever | weekly | 466.0 | high | medium |
| German Shepherd | weekly | 466.0 | medium | large |
| Beagle | daily | 324.0 | high | small |
| Golden Retriever | weekly | 466.0 | high | medium |
| Yorkshire Terrier | daily | 324.0 | low | small |
| Bulldog | weekly | 466.0 | medium | medium |
| Boxer | weekly | 466.0 | high | medium |
数据框的行和列都有标签,并且行和列是有序的。在同一列中,数据的类型相同,但同一行中的数据类型可以不同。
不同领域的人对数据框的术语使用可能不同。计算机科学家称数据框的列代表数据的特征,而统计学家则称之为变量。从编程角度看,数据类
超级会员免费看
订阅专栏 解锁全文
1143

被折叠的 条评论
为什么被折叠?



