Pandas处理数据常用操作

本文介绍了使用Pandas处理数据的基本操作,包括通过指定encoding正确读取含中文字符的CSV文件,查看数据的统计信息,如缺失值,以及如何进行异常数据处理,如转换数据类型、填充缺失值和删除含有特定字符的数据样本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据来源天池新人赛工业蒸汽预测数据https://tianchi.aliyun.com/competition/entrance/231693/introductionspm=5176.12281973.1005.4.3dd574ffWvvEJ0

数据读取:

path = r'train_datasets.txt'
df = pd.read_csv(path,seq = '\t')#既可以对txt文件又可以对csv,xls等文件读取
df = pd.read_table(path)  #多用于对txt文件

对于一些含有中文字符的文件读取,如果对encoding参数不加以指定会出现乱码情况,所以需要注意文件的编码方式,一般来说现在的一些非图像数据采用的多是用csv或者txt文件形式的,查看或更改其编码方式的时候可以利用Excel,按如下方式查看

首先查看数据文件的字符编码方式࿰

### Pandas库中的常用数据处理操作 Pandas 是 Python 中用于数据分析的强大工具,提供了丰富的功能来处理各种形式的数据。以下是 Pandas 库中常用的几种数据处理操作及其具体实现方式: #### 1. 数据读取与写入 Pandas 提供了多种方法来读取和存储不同格式的数据文件。例如,可以使用 `pd.read_csv` 方法从 CSV 文件加载数据[^3]。 ```python import pandas as pd # 加载CSV文件 df = pd.read_csv('example.csv') # 将DataFrame保存为CSV文件 df.to_csv('output.csv', index=False) ``` #### 2. 数据选择与过滤 可以通过布尔索引来筛选满足特定条件的数据行。此外,还可以利用 `.loc[]` 和 `.iloc[]` 来按标签或位置选取子集[^1]。 ```python # 使用布尔索引筛选年龄大于30岁的记录 filtered_df = df[df['age'] > 30] # 利用.loc按照列名访问指定范围内的数据 subset_df = df.loc[:, ['name', 'age']] ``` #### 3. 数据清洗 对于缺失值的处理是常见的需求之一。这包括检测、填充或者删除含有NaN的条目;另外还有重复项移除等功能。 ```python # 删除任何包含NA/null值的行 cleaned_df = df.dropna() # 替换所有的null/NA为空字符串"" filled_df = df.fillna("") ``` #### 4. 数据转换 应用自定义函数到整个Series 或 DataFrame 上面是非常普遍的需求。比如对某一列执行某种计算并创建新列。 ```python # 创建一个新的双倍年龄列 df['double_age'] = df['age'].apply(lambda x: x * 2) # 对整数类型的某列增加固定偏移量 df['salary_plus_bonus'] = df['salary'].map(lambda s: s + bonus_amount) ``` #### 5. 统计汇总 (GroupBy & Aggregation) 通过 groupby 可以轻松完成基于某些键值分组后的统计分析工作,如求平均值、总计等[^2]。 ```python # 计算每个性别的平均工资 grouped_salary = df.groupby('gender')['salary'].mean() ``` #### 6. 合并与连接 当需要组合来自多个表的信息时,merge/join 功能就显得尤为重要了。它允许依据共同字段将两张表格关联起来[^2]。 ```python merged_df = pd.merge(df_left, df_right, on='key_column') ``` 以上只是Pandas众多特性的一部分展示而已,在实际项目里还会有更多复杂场景需要用到该库的功能[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperLee188

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值