Pandas系列|第九期：全部行按某一列（列值是列表）展开

原创已于 2024-12-24 09:52:58 修改 · 217 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

于 2024-12-17 09:30:00 首次发布

Pandas高阶应用专栏收录该内容

11 篇文章

订阅专栏

背景：

Pandas中的某一列的列值是列表，现在需要将数据按照该列拆分成多行

解决方法：

利用explode函数，explode函数用于将一个包含列表、Series或者其他可迭代对象的列拆分成多行。每个元素将会在新的行中重复，同时保留其他列的值。

import pandas as pd
# 创建一个包含列表的DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Hobbies': [['reading', 'cooking'], ['hiking'], ['painting', 'gardening']]}
df = pd.DataFrame(data)

# 使用explode函数拆分Hobbies列
df_exploded = df.explode('Hobbies')

print(df_exploded)

输出结果：

      Name    Hobbies
0    Alice    reading
0    Alice    cooking
1      Bob     hiking
2  Charlie   painting
2  Charlie  gardening

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

无形忍者

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python Pandas 数据框的合并重复列处理

Python编程之道的博客

05-18

535

在数据处理与分析的过程中，我们经常会遇到从不同数据源获取的数据，这些数据可能会存在合并到同一个数据框时出现重复列的情况。重复列的存在不仅会占用额外的存储空间，还可能对后续的数据处理和分析造成干扰。本文的目的就是详细介绍如何使用 Python 的 Pandas 库来处理数据框中的合并重复列问题，范围涵盖了重复列的识别、合并以及合并方式的选择等方面。本文将按照以下结构进行组织：首先介绍相关核心概念，包括数据框和重复列的定义及它们之间的联系；

Pandas实战100例-专栏介绍

若北辰

01-13

2455

Pandas，Python数据科学的心脏，是探索和分析数据世界的强大工具。想象一下，用几行代码就能洞察庞大数据集的秘密，无论是金融市场趋势还是社交媒体动态。通过Pandas，你可以轻松地整理、清洗、转换数据，将杂乱无章的数据变成有意义的洞察。它的灵活性和效率是数据科学家和分析师的必备利器。学习Pandas，就是开启数据探索之旅的第一步，让数据讲述背后的故事。你准备好了吗？加入Pandas的世界，成为数据的大师。

参与评论您还未登录，请先登录后发表或查看评论

Python pandas库怎样根据某一列的数据将所有数据分类

devid008的博客

05-31

4551

在数据处理中，数据分类是一项基础而重要的工作。本文将介绍如何使用Python pandas库，根据某一列的数据将所有数据分类。

Python Pandas list(列表)数据列拆分成多行的方法

weixin_42098295的博客

06-08

1791

print("\n使用 repeat 和 numpy 的 concatenate 拆分成多行:\n", df_expanded)print("\n通过 apply 和 pd.Series 拆分成多行:\n", result)print("\n使用 reindex 和 assign 拆分成多行:\n", result)print("\n创建新的列表并构造 DataFrame:\n", result)print("\n使用 numpy 高性能实现:\n", result)

python中pandas作用_基于pandas中expand的作用详解

weixin_39946029的博客

12-08

2044

expand表示是否把series类型转化为DataFrame类型下面代码中的ｎ表示去掉下划线"_"的数量代码如下：import numpy as npimport pandas as pds2 = pd.Series(['a_b_c_f_j', 'c_d_e_f_h', np.nan, 'f_g_h_x_g'])print("-----------------------------------...

在Pandas中展开DataFrame中列表列至多行的六种方法

蜗牛沐雨

12-02

1448

在数据分析中，我们经常需要处理嵌套列表或数组的数据结构，特别是当一个字段包含多个值时。Pandas 提供了多种方式来处理这种情况，将列表展开成多行。本文将详细介绍六种不同的方法来实现这一需求，并提供详细的代码解析、优缺点分析、实际效果展示、对比分析以及实际项目中的应用经验分享。

pandas 按照某一列进行排序

weixin_33739523的博客

10-29

2万+

pandas排序的方法有很多，sort_values表示根据某一列排序 pd.sort_values("xxx",inplace=True) 表示pd按照xxx这个字段排序，inplace默认为False,如果该值为False，那么原来的pd顺序没变，只是返回的是排序的　　 python 判断一个数是否是NaN >>> import...

python/pandas中一行转多行（列值分割）

kelanj的博客

04-12

3620

movielens中的genres列有多个值，由“|”隔开，在统计的时候需要将其分割，以便统计每个电影类型，这就涉及到python中的一行转多行了。。（不知道学名叫啥。。）目录 1. 先看一下数据 2. 仅分割genres列 3. 若要保留一列作为index 4. 若要保留两列作为index 1. 先看一下数据 test = [{"a":1,"b":9,"genres":"Animation|Children's|Musical"},{"a":2,"b":9,"genres":"Mus

【Pandas DataFrame进阶指南】：行和列求和的高级用法

[【Pandas DataFrame进阶指南】：行和列求和的高级用法](https://www.sharpsightlabs.com/wp-content/uploads/2021/08/pandas-sum_simple-example.png) 参考资源链接：[python中pandas.DataFrame对行与列求和及添加...

SC.Pandas 04 | 如何使用Pandas实现文件IO？

Ritascake's Blog

10-16

844

其中青藏高原的大环线应该是足够让人印象深刻的(以后也可以跟别人吹，咱也是登过珠峰的人了)，有时间再跟大家分享下高原上的旅途。但是在以往的写作和校对过程中，也注意到过长的篇幅也许对于作者和读者都是一个负担，需要集中一段并不短的时间。话不多说，我们继续来看一下通过Pandas读取和写入文件，实现本地数据与Python间的交互。文件则是纯文本文件，其内容没有任何格式要求，可以是任意格式的文本。毕竟是短视频时代了，那么我们不妨也碎片化吧，一次就完成一个点，相对应地提高频率。因此，其他的要点几乎一致，在拥有多个。

pandas中expand的作用

微电子学与固体电子学-俞驰

10-13

5102

expand表示是否把series类型转化为DataFrame类型下面代码中的ｎ表示去掉下划线"_"的数量代码如下: import numpy as np import pandas as pd s2 = pd.Series(['a_b_c_f_j', 'c_d_e_f_h', np.nan, 'f_g_h_x_g']) print("----------------------...

pandas 如何将一列列表数据展开成多行数据

baobiannie5000的博客

08-07

2944

1 df = pd.DataFrame({'A':df.A.repeat(df.B.str.len()),'B':np.concatenate(df.B.values)}) 转载于:https://www.cnblogs.com/Tw1st-Fate/p/11318552.html

pandas: dataframe按某一列的值分成多个小的dataframe

最新发布

12-21

基于Python 的UART 文件传输工具，基于Pyside6的GUI界面

C# 基于 Onnx 与 P2PNet 的人群检测与计数系统源码实现

12-21

基于C#编程语言与Onnx运行时环境，本文档详细阐述了一种利用P2PNet架构实现人群密度估计与个体计数的技术方案。该方案通过解析预训练模型，实现了对图像或视频流中人群分布的精准检测，并提供了可靠的计数功能。核心内容包括模型加载与推理流程的完整实现、数据处理管道的构建以及性能优化策略的探讨。本文旨在为相关领域的开发人员提供一个清晰、可复现的参考实现，着重于工程实践的严谨性与代码模块的可用性。所有实现代码均经过结构化组织与详细注释，以确保其易于理解与集成。资源来源于网络分享，仅用于学习交流使用，请勿用于商业，如有侵权请联系我删除！

Theoretical Machine Learning Notes (Princeton COS511)

12-21

根据原作 https://pan.quark.cn/s/459657bcfd45 的源码改编 Classic-ML-Methods-Algo 引言建立这个项目,是为了梳理和总结传统机器学习(Machine Learning)方法(methods)或者算法(algo),和各位同仁相互学习交流. 现在的深度学习本质上来自于传统的神经网络模型,很大程度上是传统机器学习的延续,同时也在不少时候需要结合传统方法来实现. 任何机器学习方法基本的流程结构都是通用的;使用的评价方法也基本通用;使用的一些数学知识也是通用的. 本文在梳理传统机器学习方法算法的同时也会顺便补充这些流程,数学上的知识以供参考. 机器学习机器学习是人工智能(Artificial Intelligence)的一个分支,也是实现人工智能最重要的手段.区别于传统的基于规则(rule-based)的算法,机器学习可以从数据中获取知识,从而实现规定的任务[Ian Goodfellow and Yoshua Bengio and Aaron Courville的Deep Learning].这些知识可以分为四种: 总结（summarization）预测(prediction) 估计(estimation) 假想验证(hypothesis testing) 机器学习主要关心的是预测[Varian在Big Data : New Tricks for Econometrics],预测的可以是连续性的输出变量,分类,聚类或者物品之间的有趣关联. 机器学习分类根据数据配置(setting,是否有标签，可以是连续的也可以是离散的)和任务目标,我们可以将机器学习方法分为四种: 无监督(unsupervised) 训练数据没有给定...

食堂线上预约点餐系统_一个基于现代Web技术构建的面向学校企业及园区食堂的综合性数字化餐饮服务平台_该系统旨在通过线上化流程彻底革新传统食堂就餐模式_核心功能模块包括用户端小程序.zip

12-21

如何使用 pandas 将多列数据保存为 CSV 文件，现在每一列都是一个数组

10-19

<think>我们面对的问题是：DataFrame中每列都是数组（应该是说每列的元素都是数组），需要保存为CSV文件。但是，CSV文件是纯文本格式，它存储的是表格数据，每列通常是单个值（如整数、字符串等）。如果每列是数组，那么我们需要考虑如何将这些数组转换为CSV能够表示的格式。通常有两种做法： 1. 将数组展开为多列：例如，如果一列是长度为3的数组，那么我们可以将其拆分成3列。 2. 将数组转换为字符串：例如，将数组[1,2,3]转换为字符串"1,2,3"（或者用其他分隔符）。根据用户提供的引用，并没有直接给出处理数组列的方法。但我们可以根据一般经验来处理。步骤： 1. 首先，我们需要确认DataFrame中每列数组的长度是否一致。如果不一致，展开可能会出现问题。 2. 如果选择展开，我们可以使用`apply(pd.Series)`将每一列数组拆分成多列，然后合并成一个新的DataFrame，再保存为CSV。 3. 如果选择转换为字符串，则可以对每列应用一个转换函数，将数组转换为字符串。但是，注意用户的要求是“保存为CSV”，而CSV文件要求每行每列都是单个值。所以，如果每列是数组，那么实际上我们有两种理解： - 情况1：每一列是一个数组，每个数组有多个元素，我们希望将每个数组元素拆分成多列（这样列数会增加） - 情况2：我们不需要拆分，而是将整个数组作为一个字符串存储在一列中（这样列数不变，但数组变成字符串）下面分别给出两种方法的示例。方法一：展开数组为多列假设我们有一个DataFrame，其中两列A和B，每列都是长度为2的数组。示例数据： import pandas as pd import numpy as np df = pd.DataFrame({ 'A': [np.array([1,2]), np.array([3,4])], 'B': [np.array([5,6]), np.array([7,8])] }) 我们希望将A列展开为A0, A1，B列展开为B0, B1。步骤： new_df = pd.DataFrame() for column in df.columns: # 将每一列（数组）拆分成多列并重命名 expanded = df[column].apply(pd.Series) expanded.columns = [f'{column}_{i}' for i in range(expanded.shape[1])] new_df = pd.concat([new_df, expanded], axis=1) 然后保存：new_df.to_csv('output.csv', index=False) 方法二：将数组转换为字符串 df_str = df.applymap(lambda arr: ','.join(map(str, arr))) df_str.to_csv('output.csv', index=False) 注意：方法二保存后，CSV文件中每列是一个字符串，如A列的值是"1,2"，B列的值是"5,6"。根据后续使用需求选择方法。如果后续需要重新读入并恢复数组，方法二可以通过读取字符串再分割来恢复，但要注意数据类型转换。另外，如果数组长度不一致，方法一会导致出现NaN（因为展开后的列数不一致），方法二则没有这个问题。因此，我们根据实际情况选择。下面给出完整示例代码：方法一（展开）： ```python import pandas as pd import numpy as np # 创建示例DataFrame，每列是数组 df = pd.DataFrame({ 'A': [np.array([1,2]), np.array([3,4])], 'B': [np.array([5,6]), np.array([7,8])] }) # 展开每一列 new_df = pd.DataFrame() for col in df.columns: # 将当前列的每个数组拆分成多列 expanded = df[col].apply(pd.Series) # 重命名这些列，以避免重复列名 expanded.columns = [f'{col}_{i}' for i in expanded.columns] new_df = pd.concat([new_df, expanded], axis=1) # 保存为CSV new_df.to_csv('expanded_output.csv', index=False) ``` 方法二（转换为字符串）： ```python # 使用同样的df # 将每个数组转换为逗号分隔的字符串 df_str = df.applymap(lambda x: ','.join(map(str, x))) df_str.to_csv('string_output.csv', index=False) ``` 如果数组长度不一致，比如： df = pd.DataFrame({ 'A': [np.array([1,2]), np.array([3,4,5])], 'B': [np.array([6]), np.array([7,8,9])] }) 对于方法一，展开后会出现NaN。例如，第一行A展开三列：A0=1, A1=2, A2=NaN；B展开三列：B0=6, B1=NaN, B2=NaN。而方法二则得到：第一行A列是"1,2"，B列是"6"；第二行A列是"3,4,5"，B列是"7,8,9"。因此，用户需要根据数组是否等长以及后续使用需求来选择方法。另外，如果数组很长，展开后列数会非常多，可能不利于后续处理，这时候方法二更合适。总结： - 等长数组且需要单独处理每个元素：方法一 - 不等长数组或希望保持原列数：方法二相关问题： 1. 如何在保存CSV后重新读取并恢复数组格式？ 2. 对于不等长的数组，如何避免展开时出现NaN？ 3. 如何将每个数组元素展开成多行（而不是多列）？ </think>### 如何将每列为数组的DataFrame保存为CSV 当DataFrame的每列都是数组时，需要先将数组转换为CSV可识别的格式。核心解决方案是**将数组序列化为字符串**或**展开为多列**。以下是两种方法的详细实现： --- #### 方法1：数组序列化为字符串（保留列结构）将每列的数组转换为字符串格式（如JSON），保持原始列数： ```python import pandas as pd import numpy as np import json # 创建示例数据（每列为数组） data = { '坐标': [np.array([1.2, 3.4]), np.array([5.6, 7.8])], '特征向量': [np.array([0.1, 0.2, 0.3]), np.array([0.4, 0.5, 0.6])] } df = pd.DataFrame(data) # 将数组列转换为JSON字符串 df['坐标'] = df['坐标'].apply(lambda x: json.dumps(x.tolist())) df['特征向量'] = df['特征向量'].apply(lambda x: json.dumps(x.tolist())) # 保存CSV（解决中文乱码） df.to_csv('array_data.csv', index=False, encoding='utf-8-sig') ``` **输出文件内容**： ``` 坐标,特征向量 "[1.2, 3.4]","[0.1, 0.2, 0.3]" "[5.6, 7.8]","[0.4, 0.5, 0.6]" ``` --- #### 方法2：数组展开为多列（增加列维度）将每列的数组拆分为多个单值列： ```python # 展开'坐标'列为两列 coord_df = pd.DataFrame(df['坐标'].tolist(), columns=['x', 'y']) # 展开'特征向量'列为三列 feature_df = pd.DataFrame(df['特征向量'].tolist(), columns=[f'feat_{i}' for i in range(3)]) # 合并新列 new_df = pd.concat([coord_df, feature_df], axis=1) # 保存CSV new_df.to_csv('expanded_data.csv', index=False) ``` **输出文件内容**： ``` x,y,feat_0,feat_1,feat_2 1.2,3.4,0.1,0.2,0.3 5.6,7.8,0.4,0.5,0.6 ``` --- ### 关键注意事项 1. **数组长度一致性** - 方法2要求每列内数组长度相同，否则会引发`ValueError` - 使用`.apply(pd.Series)`前需验证长度： ```python assert df['特征向量'].apply(len).nunique() == 1 # 确保所有数组等长 ``` 2. **数据还原策略** - 方法1保存的CSV读取后需反向解析： ```python df = pd.read_csv('array_data.csv') df['坐标'] = df['坐标'].apply(lambda s: np.array(json.loads(s))) ``` 3. **大数组优化** - 超长数组建议使用方法1，避免列数爆炸 - 启用压缩减少存储： ```python df.to_csv('data.csv.gz', index=False, compression='gzip') ``` --- ### 性能对比 | 方法 | 适用场景 | 列数变化 | 数据还原难度 | |------|-----------|----------|--------------| | 序列化为字符串 | 数组长度差异大/需保留结构 | 不变 | ★★☆（需JSON解析） | | 展开为多列 | 数组长度固定/需直接分析 | 增加 | ★☆☆（直接可用） | --- ### 相关问题 1. 如何将CSV中的JSON字符串还原为NumPy数组？ 2. 当数组长度不一致时，有哪些替代保存方案？ 3. Pandas如何高效处理包含大型数组的DataFrame？ 4. 除了CSV，哪些格式更适合存储数组数据（如HDF5/Parquet）？ 5. 如何分块处理超大数组的CSV导出？[^1][^4] > 引用提示：数组操作可结合NumPy实现高效计算[^2]，分块处理策略参考大文件处理方案[^1][^4]