数据处理(numpy库的常见简单处理)

1.去重(drop_duplicates)

import  pandas as pd

df=pd.read_csv('数据集.csv',encoding='utf-8')
df1 = df.drop_duplicates()
df1.to_csv('数据集.csv',encoding='utf-8')

2.合并多个数据集,列名相同(concat)

#合并数据集
import pandas as pd

# 定义CSV文件名列表
filenames = ['2024-1029.csv', '2024年.csv', 'java.csv', '会计.csv', '数据开发.csv','高中数学老师.csv','教培行业.csv']

# 读取所有CSV文件并存储在列表中
dfs = [pd.read_csv(filename) for filename in filenames]

# 合并数据集
merged_df = pd.concat(dfs, ignore_index=True)

# 保存合并后的数据集为新的CSV文件
merged_df.to_csv('merged_file.csv', index=False)

3.选出数据集的前X行进行保存(head)

df=pd.read_csv('selected_column.csv',encoding='utf-8')
s=df.head(5100)
s.to_csv('个签.csv',encoding='utf-8')

4.选取数据集的莫些列进行重新保存([  [ '列名1','列名2'] ])

import  pandas as pd
# 读取CSV文件
df = pd.read_csv('数据集.csv', encoding='utf-8')

# 提取'发布者昵称'和'个人签名'两列
column_data = df[['发布者昵称', '个人签名']]

# 打印该列的数据
print(column_data)

# 将该列的数据保存为新的CSV文件
column_data.to_csv('2.csv',encoding='utf-8',index=False)

5.选出数据集中莫些数据带条件

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv("大米发货地云南.csv", encoding="utf-8")

# 筛选城市为"宁波"的数据,并选择指定列
filtered_data = data[data['省份'] == '云南'][['userId', '标题', '价格', '图片链接', '省份', '城市', '销量', '店铺']]

# 将结果保存为新的 CSV 文件
filtered_data.to_csv("data.csv", index=False, encoding="utf-8")

print("筛选成功,结果已保存至 .csv 文件。")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值