本博客为《利用Python进行数据分析》的读书笔记,请勿转载用于其他商业用途。
1. 整数索引
在pandas对象使上用整数索引对新用户来说经常会产生歧义,这是因为它和在列表、元组等Python内建数据结构上进行索引有些许不同。例如:
ser = pd.Series(np.arange(3.))
print(ser)
print(ser[-1])
在上面的例子中,pandas可以“回退”到整数索引,但是这样的方式难免会引起一些微小的错误。假设我们有一个索引,它包含了0、1、2,但是腿短用户所需要的索引方式(标签索引或位置索引)是很难的:
#
0 0.0
1 1.0
2 2.0
dtype: float64
另一方面,对于非整数索引,则不会有潜在的歧义:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
print(ser2[-1])
#
2.0
为了保持一致性,如果我们有一个包含整数的索引轴,数据选择时请始终使用标签索引。
为了更精确地处理,可以使用loc
(用于标签)或iloc
(用于整数):
print(ser[:1])
print(ser.loc[:1])
print(ser.iloc[:1])
#
0 0.0
dtype: float64
0 0.0
1 1.0
dtype: float64
0 0.0
dtype: float64
2. 算数和数据对齐
不同索引的对象之间的算数行为是pandas提供给一些应用的一项重要特征。当我们将对象相加时,如果存在某个索引对不相同,则返回结果的索引将是索引对的并集。 对数据库用户来说,这个特性类似于索引标签的自动外连接(outer join):
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
print(s1)
print(s2)
print(s1 + s2)
#
a 7.3
c -2.5
d 3.4
e 1.5
dtype: float64
a -2.1
c 3.6
e -1.5
f 4.0
g 3.1
dtype: float64
a 5.2
c 1.1
d NaN
e 0.0
f NaN
g NaN
dtype: float64
没有交叠的标签位置上,内部数据对齐会产生缺失值。缺失值会在后续的算数操作上产生影响。在DataFrame的实例中,行和列都会执行对齐。
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
index=['Utah', 'Ohio', 'Texas', 'Oregon'])
print(df1)
print(df2)
#
b c d
Ohio 0.0 1.0 2.0
Texas 3.0 4.0 5.0
Colorado 6.0 7.0 8.0
b d e
Utah 0.0 1.0 2.0
Ohio 3.0 4.0 5.0
Texas 6.0 7.0 8.0
Oregon 9.0 10.0 11.0
将这些对象加载一起,返回一个DataFrame,它的索引、列是每个DataFrame的索引、列的并集:
print(df1 + df2)
#
b c d e
Colorado NaN NaN NaN NaN
Ohio 3.0 NaN 6.0 NaN
Oregon NaN NaN NaN NaN
Texas 9.0 NaN 12.0 NaN
Utah NaN NaN NaN NaN
由于‘c’列和‘e’列不是两个DataFrame共有的列,这两列中产生了缺失值。对于行标签不同的DataFrame对象也是如此。
如果我们将两个行或列完全不同的DataFrame对象相加,结果将全部为空:
df1 = pd.DataFrame({
'A': [1, 2]})
df2 = pd.DataFrame({
'B': [3