- 数据处理的要求
- 缺失值处理(0,统计数据,如众数、中位数...;缺失过多行/列删除)
- 异常值处理(散点图、箱线图识别异常值)
- 取出重复数据行
- 注意缺失的是空字符串/空值,和后端确认好传入字段的类型
- python数据处理常用
import pandas as pd
# 去重重复数据
df.drop_duplicates()
# 数据类型转化
df.astype()
# 将某列转化为日期格式
pd.to_datetime(df['date'], format = "%Y%m%d")
# 取2023-01-01以后的数据
df = df[df['date'] > '2023-01-01']
# 确定日期范围
start_date = df['date'].min()
end_date =df['date'].max()
# 假设start_date是2025-01-15,则会变成2025-01-01
# 假设end_date是2025-01-15,则会变成2025-01-31
all_dates = pd.date_range(start=start_date.replace(day=1), end=end_date.replace(day=1) + pd.DateOffset(months=1, days=-1),freq='MS').strftime('%Y%m')
# 将日期格式转化为字符串
df['date']=df['date'].