pandas数据预处理时的一些坑

最新推荐文章于 2025-06-05 09:24:53 发布

原创最新推荐文章于 2025-06-05 09:24:53 发布 · 938 阅读

2 ·

CC 4.0 BY-SA版权

python数据清洗专栏收录该内容

2 篇文章

订阅专栏

本文介绍了使用Pandas库处理数据的两种实用技巧：如何正确地对DataFrame进行纵向合并以避免因索引不匹配导致的数据错位，以及如何利用shuffle函数合理地随机化数据集以确保交叉验证的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1）在使用pd.concat([df1,df2],axis=1)对数据进行纵向合并时，要注意默认是对应行索引进行合并。如果之前对数据进行过类似于去除样本的操作，要注意对两个数据集的行索引进行重复定义，否则会合并错位。

df1.index = range(len(df1))
df2.index = range(len(df2))
df = pd.concat([df1,df2],axis=1)

2) 做数据的时候使用了shuffle这个函数，它的作用是将数据随机打乱。如果有些数据集的Y值或特征值等随着行索引表现出明显的规律性变化，则要小心。因为这个会影响交叉严重的结果。所以要注意对数据进行随机化打乱，还要注意记住random_state的值,以使结果可重复

from sklearn.utils import shuffle #utils在英语中是跑龙套/小工具的意思
df1 = shuffle(df1,random_state=33)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hasy_qiu

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python 在 AI 数据预处理中的最佳实践：从入门到高手的那些坑和经验

Echo_Wish

07-22

Python 在 AI 数据预处理中的最佳实践：从入门到高手的那些坑和经验

【pandas】pd.concat(col_1,col_2,...,axis=1)后行错位

weixin_42631554的博客

04-11

2704

项目场景：使用pandas读取数据集为dataframe。删除其中指定列的值为‘value’的行。将待处理的每一列单独取出。例如： col_1 = data.loc[:,'col_1'] 对数值为离散型的列执行label编码。例如： le = LabelEncoder() col_1= le.fit_transform(col_1) col_1= pd.DataFrame(col_1,columns=['col_1']) 使用pd.concat()将所有列拼接在一起组成新的数

参与评论您还未登录，请先登录后发表或查看评论

pandas使用中的坑

辉的博客

12-05

779

文件读写问题1 使用pandas.read_excel 读取xlsx文件时报错，list index out of range 出现该情况时，读取的文件为xls文件另存为得到的xlsx文件将文件里的单元格完整复制到新建的xlsx文件重新读取，不再报错机理暂不明确，可能是read_excel对xls格式不支持转载于:https://www.cnblogs.com/travelcat/p/11...

学习pandas遇到的坑(一)

ymh的学习笔记

02-18

525

read_csv读取的csv文件编码格式的问题： read_csv函数enconding参数的默认值是utf-8 而CSV是用UTF-8编码的，而EXCEL是ANSI编码。这里顺便说一下xls与xlsx的区别，xls是excel2003及以前版本生成的文件格式。xlsx是excel2007及以后版本生成的文件格式顺便说一下怎么创建一个utf-8编码的csv：（1）新建一个excel修改后缀名...

Pandas 数据预处理全攻略：从入门到精通

最新发布

wj2kag33yp的博客

06-05

1482

Pandas，作为 Python 数据分析的核心库，提供了强大而灵活的工具，能够帮助我们高效地完成数据预处理任务。Pandas 是一个功能强大的数据分析工具，它提供了丰富的数据预处理功能，能够帮助我们高效地完成数据清洗、转换、整合和优化等任务。如果数据存储在 Excel 文件中，可以使用 Pandas 的 `ExcelFile` 和 `read_excel()` 函数。数据转换是数据预处理中的关键步骤之一。Pandas 提供了 `merge`、`join` 和 `concat` 等方法来合并数据。

纯新手使用pandas时候踩到的一些坑

Bobanimememeem

04-14

562

1、python3支持比较处理中文数据，python2 可能发生读进来的还是编码的情况2、pandas 的reindex功能不是修改索引名称只是排序，想要换一个新索引估计直接建立一个新的dataframe最快3、不读表头的话readexcel的函数里面header=None...

跌过的坑—pandas列计算

弈道易的博客

07-24

324

pandas列计算不能直接计算。例如下面坑过的代码：注释：其中hsitdt是一个老的DataFrame,itcharac[‘下影线长’]是一个要计算得出的列，如下写会报错 itcharac['下影线长']=(min(hsitdt['open'],hsitdt['close'])-hsitdt['low'])/hsitdt['pre_close'] 正确写法是要利用apply()函数 ...

pandas将时间列，分组聚合成间隔两个小时或者随意时间的间隔，统计个数

Mogul的博客

09-21

1143

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。重新取样时间序列数据。方便的时间序列的频率转换和重采样方法。对象必须具有类似datetime的索引(DatetimeIndex、PeriodIndex或TimedeltaIndex)，或将类似datetime的值传递给on或level关键字。有关resample()的用法可参考： Pandas中resample方法详解_风雪云侠的博

竞赛专题 | 数据预处理-如何处理数据中的坑？

Datawhale

08-27

6862

点击上方“Datawhale”，选择“星标”公众号第一时间获取价值内容为了帮助更多竞赛选手入门进阶比赛，通过数据竞赛提升理论实践能力和团队协作能力。DataFountai...

【Pandas】一文入门Pandas处理csv文件数据集（神经网络/机器学习算法数据预处理）

qq_43426078的博客

07-06

5364

和某个大佬采集的数据是csv格式的，之前没处理过csv格式的数据。拿来写神经网络训练的时候踩了不少坑，这里记录一下，也方便后来人学习。处理csv文件的包应该有不少，这里就做一个pandas的教程了（其他的没用过hhhh）。这里我以我的一个数据为例演示一些常用的处理方法。 csv文件中的空值（NaN）是什么？这里是一个大坑。建议大家在读csv的时候用我下面这个参数，把缺失的值统一设置为。这样在后面如果需要手动过滤掉缺失值的时候可以索引到位置。之前试过，如果不设置这个参数，缺失值不是False、0、"NaN

spark | 手把手教你用spark进行数据预处理

TechFlow的博客

07-02

2627

本文始发于个人公众号：TechFlow，原创不易，求个关注今天是spark专题的第七篇文章，我们一起看看spark的数据分析和处理。过滤去重在机器学习和数据分析当中，对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊，如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那么数据并不是“米”，充其量最多只能算是未脱壳的稻。要想把它做成好吃的料理，必须要对原生的稻谷进行处理。但是处理也并不能乱处理，很多人做数据处理就是闷头一套三板斧。去空值、标准化还有one-hot，这一套流

机器学习DAY5: 特征工程和特征选择（数据预处理）（完)

feifeikon的博客

12-29

1841

本文通过特征提取、特征转换、特征选择三个过程介绍数据预处理方法，特征提取将原始数据转换为适合建模的特征，特征转换将数据进行变换以提高算法的准确性，特征选择用来删除无用的特征。

python_Pandas机器学习数据预处理

江州司马

04-01

2227

简介数据预处理常用python方法 01.从数据中读取数据 import pandas as pd import MySQLdb mysql_cn= MySQLdb.connect(host='localhost', port=3306,user='myusername', passwd='mypassword', db='mydb') df = pd.read_sql('se...

Pandas合并excel文件错位现象的解决

python__reported的博客

05-27

5939

Pandas合并excel文件错位现象的解决一、文件错位现象二、原因三、解决一、文件错位现象说明：原本想将多列变为一列，以便后续的可视化处理，但是合并后出现这样的错位原本试图通过pandas的cancat()方法中的参数解决，但是没有效果。 pandas的cancat()方法参数解释,参见《pandas数据合并与重塑（pd.concat篇）》，链接: link. 二、原因既然参数中找不到解决问题的原因，我就又重新复习了一遍cancat()方法。原本以为是excel文件索引的问题，即假设：第一个

解决pandas的concat表格错位问题。表格拼接错误。

weixin_46035550的博客

04-01

981

解决表格拼接错位的问题。表格拼接失败、有误。

Python Pandas DataFrame 表格打印输出不能对齐的两种解决方案

热门推荐

bylfsj的博客

02-25

2万+

最近在学数据分析，中英文混合的DataFrame表格会出现print()打印无法对齐的情况，导致输出的结果都没有对齐，十分不美观，也...

数据挖掘代码实例学习——Pandas、sklearn数据预处理（包含pandas库以及所需依赖包安装教程）

长弓同学的python学习笔记

09-01

5030

无论是在数据挖掘还是机器学习当中，数据的好坏很大程度决定了最后训练出来的模型的预测和泛化能力的好坏。为了训练出质量更高的模型，通常我们都需要在训练之前对我们的数据集进行预处理。在文本领域主要使用pandas、numpy对数据进行预处理，在图像领域则使用opencv、numpy来处理，图像的预处理可以详见我之前的博客，今天我们将使用pandas来对文本数据进行预处理。数据预处理是机器学习和数据挖掘中非常重要的一个步骤，对原始数据进行相应的处理，可以为后续挖掘建模提供良好的数据基础。...

pandas学习记录：concat列拼接出现错位（去除重复项之后）

u014448054的博客

08-20

7679

使用pandas在处理csv或者xsl数据时，往往数据中会出现重复项，这时就需要去除重复项，在进行其他操作。我的应用场景是去除所有列都重复的数据行 data.drop_duplicates(inplace=True) 使用drop_duplicates函数进行重复项的删除，inplace参数代表是在原来的数据上进行操作还是建立一个新的副本，还可以传入依照去重的列名（即依照一列或几列进行去重） ...

PHP与JSON的一些常用操作

HelloWorld

09-30

2185

PHP把数据写入JSON文件 <?php // 生成一个PHP数组 $data = array (); $data ["fruit"] = "apple" ; $data ["animal"] = "tiget"; // 把PHP数组转成JSON字符串,写入文件 $json_string = json_encode( $data ); ?> PHP读取JSON数据? <?php // 从文件中读取数据到PHP变量 $str = file_get_contents ( 'one

Python 3使用Pandas读取和打印CSV文件数据教程

这些方法允许程序员更精细地控制数据的处理过程，对于数据预处理和初步分析尤为有用。接下来，介绍文件压缩包中的三个文件及其相关知识点。文件压缩包包含file.csv文件、test.py文件以及requirements.txt文件。 ...