1.去重(drop_duplicates)
import pandas as pd
df=pd.read_csv('数据集.csv',encoding='utf-8')
df1 = df.drop_duplicates()
df1.to_csv('数据集.csv',encoding='utf-8')
2.合并多个数据集,列名相同(concat)
#合并数据集
import pandas as pd
# 定义CSV文件名列表
filenames = ['2024-1029.csv', '2024年.csv', 'java.csv', '会计.csv', '数据开发.csv','高中数学老师.csv','教培行业.csv']
# 读取所有CSV文件并存储在列表中
dfs = [pd.read_csv(filename) for filename in filenames]
# 合并数据集
merged_df = pd.concat(dfs, ignore_index=True)
# 保存合并后的数据集为新的CSV文件
merged_df.to_csv('merged_file.csv', index=False)
3.选出数据集的前X行进行保存(head)
df=pd.read_csv('selected_column.csv',encoding='utf-8')
s=df.head(5100)
s.to_csv('个签.csv',encoding='utf-8')
4.选取数据集的莫些列进行重新保存([ [ '列名1','列名2'] ])
import pandas as pd
# 读取CSV文件
df = pd.read_csv('数据集.csv', encoding='utf-8')
# 提取'发布者昵称'和'个人签名'两列
column_data = df[['发布者昵称', '个人签名']]
# 打印该列的数据
print(column_data)
# 将该列的数据保存为新的CSV文件
column_data.to_csv('2.csv',encoding='utf-8',index=False)
5.选出数据集中莫些数据带条件
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("大米发货地云南.csv", encoding="utf-8")
# 筛选城市为"宁波"的数据,并选择指定列
filtered_data = data[data['省份'] == '云南'][['userId', '标题', '价格', '图片链接', '省份', '城市', '销量', '店铺']]
# 将结果保存为新的 CSV 文件
filtered_data.to_csv("data.csv", index=False, encoding="utf-8")
print("筛选成功,结果已保存至 .csv 文件。")