【数据清洗】python 实现数据分裂

这篇博客记录了一段Python代码,用于数据清洗,将原始数据中包含 '[', ']' 的字符串替换为空,通过split(',')进行列展开,并使用pandas的concat函数重组数据。该方法适用于频繁切换代码编辑环境的开发者,避免重复编写相同的数据预处理代码。

这次完全是为了备注一个自己常用的代码,由于经常换写代码的终端,所以有些代码真的不想重写了,所以就在这里备注一下有关数据清洗的一些代码:

原始数据是

想要变成

 

python 代码如下:

new_data = data_one.str.split(',',expand=True)
new_first = new_data.iloc[:,0].apply(lambda x: x.replace('[',''))
new_last = new_data.iloc[:,-1].apply(lambda x: x.replace(']',''))
all_new_voltage = pd.concat((new_first,new_data.iloc[:,1:-1],new_last),axis=1)

数据清洗是指对原始数据进行处理,使其更准确、一致并适合后续分析的过程。无论是通过 Excel 还是 Python,都可以完成各种形式的数据清洗任务。 ### 使用 Excel 清洗数据: 1. **查找和替换**:利用“Ctrl + H”快捷键可以快速定位特定内容,并将其替换成所需值。 2. **分列功能**:如果一列表格内包含多种信息(如全名),可通过文本到列的功能将它们分离成独立的字段。 3. **删除重复项**:选择需要清理的数据区域,在菜单栏找到去除重复选项即可轻松移除多余记录。 4. **条件格式化与筛选**:帮助识别异常点以及不符合标准规则的数据行。 ### 利用Python(pandas库)清洗数据: Pandas是一个强大的开源数据分析工具包,在Python生态系统里特别适用于结构化表格型数据的操作。它提供了一系列便捷函数支持复杂而高效的数据预处理工作流程: ```python import pandas as pd # 加载csv文件进入DataFrame对象df中 df = pd.read_csv('data.csv') # 查看前几条记录了解整体情况 print(df.head()) # 填充缺失值,默认采用均值填充数值特征;对于类别变量则考虑众数等策略替代NaNs for col in df.columns: if df[col].dtype == 'object': mode_val = df[col].mode()[0] df[col] = df[col].fillna(mode_val) else: mean_val = df[col].mean() df[col] = df[col].fillna(mean_val) # 删除完全空缺的行列组合 df.dropna(how='all', inplace=True) # 标准化日期时间戳表达式统一表示法便于进一步操作 df['date'] = pd.to_datetime(df['raw_date_field']) # 存储干净版本回本地磁盘保存结果 df.to_csv("cleaned_data.csv", index=False) ``` 上述脚本展示了一个典型的数据净化步骤概览。当然实际应用过程中还需要结合业务背景知识针对具体情况定制相应的算法逻辑来提高质量等级。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值