【转载】pandas concat

本文深入讲解了Pandas库中的concat函数,包括其基本用法、参数说明及应用场景,如纵向和横向合并DataFrame,使用keys参数区分数据源,以及如何处理不同字段的表合并等问题。

1 concat

concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合
  • 1
  • 2
  1. pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
  2. keys=None, levels=None, names=None, verify_integrity=False)
  • 1
  • 2

参数说明 
objs: series,dataframe或者是panel构成的序列lsit 
axis: 需要合并链接的轴,0是行,1是列 
join:连接的方式 inner,或者outer

其他一些参数不常用,用的时候再补上说明。

1.1 相同字段的表首尾相接

这里写图片描述

  1. # 现将表构成list,然后在作为concat的输入
  2. In [4]: frames = [df1, df2, df3]
  3. In [5]: result = pd.concat(frames)
  • 1
  • 2
  • 3
  • 4

要在相接的时候在加上一个层次的key来识别数据源自于哪张表,可以增加key参数

In [6]: result = pd.concat(frames, keys=['x', 'y', 'z'])
  • 1

效果如下

这里写图片描述

1.2 横向表拼接(行对齐)

1.2.1 axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

In [9]: result = pd.concat([df1, df4], axis=1)
  • 1

这里写图片描述

1.2.2 join

加上join参数的属性,如果为’inner’得到的是两表的交集,如果是outer,得到的是两表的并集。

In [10]: result = pd.concat([df1, df4], axis=1, join='inner')
  • 1

这里写图片描述

1.2.3 join_axes

如果有join_axes的参数传入,可以指定根据那个轴来对齐数据 
例如根据df1表对齐数据,就会保留指定的df1表的轴,然后将df4的表与之拼接

In [11]: result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
  • 1

这里写图片描述

1.3 append

append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)
  • 1
  • 2
In [12]: result = df1.append(df2)
  • 1

这里写图片描述

1.4 无视index的concat

如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。 
这里写图片描述

1.5 合并的同时增加区分数据组的键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1.5.1 可以直接用key参数实现

In [27]: result = pd.concat(frames, keys=['x', 'y', 'z'])
  • 1

这里写图片描述

1.5.2 传入字典来增加分组键

  1. In [28]: pieces = {'x': df1, 'y': df2, 'z': df3}
  2. In [29]: result = pd.concat(pieces)
  • 1
  • 2
  • 3

这里写图片描述

1.6 在dataframe中加入新的行

append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。 
这里写图片描述

  1. In [34]: s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
  2. In [35]: result = df1.append(s2, ignore_index=True)
  • 1
  • 2
  • 3

表格列字段不同的表合并

如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。
  • 1
  • 2

这里写图片描述

  1. In [36]: dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},
  2. ....: {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
  3. ....:
  4. In [37]: result = df1.append(dicts, ignore_index=True)
### Pandas Concat 方法使用介绍 `pandas.concat` 是 Pandas 库中用于将多个 pandas 对象(如 `Series` 或 `DataFrame`)沿着某个轴拼接在一起的核心函数。该方法提供了丰富的参数选项,能够灵活处理各种数据拼接需求。 --- #### **核心功能** `pandas.concat` 主要用于按行或列的方式将多个 pandas 数据对象组合成一个新的对象。其灵活性体现在可以支持不同的拼接策略、索引管理和数据结构调整[^1]。 --- #### **语法结构** ```python pd.concat( objs, *, axis=0, join="outer", ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=None ) ``` --- #### **主要参数详解** 1. **objs**: 这是一个包含多个 pandas 对象(如 `Series` 或 `DataFrame`)的列表或字典,是唯一的必需参数。如果传入的是字典,则会自动使用键作为分层索引的一部分[^4]。 2. **axis**: 指定拼接的方向: - 当 `axis=0` 时,表示垂直方向拼接(默认行为),即将数据对象堆叠起来。 - 当 `axis=1` 时,表示水平方向拼接,即将数据对象并排放置[^5]。 3. **join**: 控制拼接时如何处理索引对齐问题: - `"outer"`(默认值):保留所有输入对象中的索引集合,并填充缺失值为 `NaN`。 - `"inner"`:仅保留交集部分的索引。 4. **ignore_index**: 如果设为 `True`,则忽略原对象的索引,重新生成连续整数索引[^4]。 5. **keys**: 若提供了一个序列,则会在结果中创建一个多级索引(MultiIndex),其中顶层索引由 `keys` 值构成[^4]。 6. **names**: 用于命名新生成的 MultiIndex 层次名称。 7. **verify_integrity**: 设为 `True` 时,检查最终结果是否存在重复索引。如果有重复,则抛出异常[^4]。 8. **sort**: 是否对结果的列进行排序。当 `sort=True` 时会对列标签进行字母顺序排列。 9. **copy**: 默认情况下,尝试重用基础数据而不复制。但如果需要显式控制是否拷贝数据,可以通过此参数设置。 --- #### **示例代码** ##### 示例 1: 基本垂直拼接 (`axis=0`) ```python import pandas as pd # 创建两个 Series s1 = pd.Series([1, 2, 3], index=["a", "b", "c"]) s2 = pd.Series([4, 5, 6], index=["d", "e", "f"]) result = pd.concat([s1, s2]) print(result) ``` 输出: ``` a 1 b 2 c 3 d 4 e 5 f 6 dtype: int64 ``` ##### 示例 2: 添加多级索引 (`keys`) ```python result_with_keys = pd.concat([s1, s2], keys=["first", "second"]) print(result_with_keys) ``` 输出: ``` 0 first a 1 b 2 c 3 second d 4 e 5 f 6 dtype: int64 ``` ##### 示例 3: 水平拼接 (`axis=1`) ```python df1 = pd.DataFrame({"A": [1, 2]}, index=[0, 1]) df2 = pd.DataFrame({"B": [3, 4]}, index=[0, 1]) horizontal_concat = pd.concat([df1, df2], axis=1) print(horizontal_concat) ``` 输出: ``` A B 0 1 3 1 2 4 ``` ##### 示例 4: 结构不一致的情况 ```python df1 = pd.DataFrame([[1, 2], [3, 4]], columns=["A", "B"]) s1 = pd.Series([5, 6], name="C") mixed_concat = pd.concat([df1, s1], axis=1) print(mixed_concat) ``` 输出: ``` A B C 0 1.0 2.0 5.0 1 3.0 4.0 6.0 ``` --- #### **注意事项** - 当拼接的对象具有相同的索引但不同列名时,`pandas.concat` 会自动补全缺失值为 `NaN`[^3]。 - 使用 `ignore_index=True` 时需注意可能会丢失原有索引的意义。 - 在大规模数据操作中,应谨慎评估内存消耗情况。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值