数据处理（numpy库的常见简单处理）-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_73690216/article/details/143561134

1.去重（drop_duplicates）

import  pandas as pd

df=pd.read_csv('数据集.csv',encoding='utf-8')
df1 = df.drop_duplicates()
df1.to_csv('数据集.csv',encoding='utf-8')

2.合并多个数据集,列名相同（concat）

#合并数据集
import pandas as pd

# 定义CSV文件名列表
filenames = ['2024-1029.csv', '2024年.csv', 'java.csv', '会计.csv', '数据开发.csv','高中数学老师.csv','教培行业.csv']

# 读取所有CSV文件并存储在列表中
dfs = [pd.read_csv(filename) for filename in filenames]

# 合并数据集
merged_df = pd.concat(dfs, ignore_index=True)

# 保存合并后的数据集为新的CSV文件
merged_df.to_csv('merged_file.csv', index=False)

3.选出数据集的前X行进行保存（head）

df=pd.read_csv('selected_column.csv',encoding='utf-8')
s=df.head(5100)
s.to_csv('个签.csv',encoding='utf-8')

4.选取数据集的莫些列进行重新保存（[ [ '列名1','列名2'] ]）

import  pandas as pd
# 读取CSV文件
df = pd.read_csv('数据集.csv', encoding='utf-8')

# 提取'发布者昵称'和'个人签名'两列
column_data = df[['发布者昵称', '个人签名']]

# 打印该列的数据
print(column_data)

# 将该列的数据保存为新的CSV文件
column_data.to_csv('2.csv',encoding='utf-8',index=False)

5.选出数据集中莫些数据带条件

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv("大米发货地云南.csv", encoding="utf-8")

# 筛选城市为"宁波"的数据，并选择指定列
filtered_data = data[data['省份'] == '云南'][['userId', '标题', '价格', '图片链接', '省份', '城市', '销量', '店铺']]

# 将结果保存为新的 CSV 文件
filtered_data.to_csv("data.csv", index=False, encoding="utf-8")

print("筛选成功，结果已保存至 .csv 文件。")