python数据处理总结

  • 数据处理的要求
    • 缺失值处理(0,统计数据,如众数、中位数...;缺失过多行/列删除)
    • 异常值处理(散点图、箱线图识别异常值)
    • 取出重复数据行
    • 注意缺失的是空字符串/空值,和后端确认好传入字段的类型
  • python数据处理常用
    • 若有不会,可以问豆包/百度
import pandas as pd
# 去重重复数据
df.drop_duplicates()

# 数据类型转化
df.astype()

# 将某列转化为日期格式
pd.to_datetime(df['date'], format = "%Y%m%d")

# 取2023-01-01以后的数据
df = df[df['date'] > '2023-01-01']

# 确定日期范围
start_date = df['date'].min()
end_date =df['date'].max()
# 假设start_date是2025-01-15,则会变成2025-01-01
# 假设end_date是2025-01-15,则会变成2025-01-31
all_dates = pd.date_range(start=start_date.replace(day=1), end=end_date.replace(day=1) + pd.DateOffset(months=1, days=-1),freq='MS').strftime('%Y%m')

# 将日期格式转化为字符串
df['date']=df['date'].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值