Python的数据预处理及特征工程
数据预处理
-
导入python 常用库及模块

-
os.chdir() 分解文件中的数据 。

-
读取文件中的glob.glob("* .xlsx") 。
4. df.reset_index(drop = True ,inplace = True) 去掉原始索引。

-
df[df["时间“].dt.year ! = 2015] 去掉2015年数据。

-
df["columns]= df.sum(1) 和sum(1) 生成新列。df.insert(1,“year”,df[“时间”].dt.year) 插入新列。

-
byyear = df.groupby(‘year’).sum().reset_index() 按年份分组

-
绘图前处理中文字体 ,表示可以接受图中可以接受中文


-
每年每个子场市场占比。

-
'近三年各类目市场销量占比。

-
近三年各类目市场销量年增幅。

本文介绍了机器学习中数据预处理的步骤,包括Python库seaborn的数据分布可视化,如直方图、箱线图、二元分布图等。同时讲解了Pyecharts库的动态图表绘制,如柱状图、箱线图、热力图等,用于数据的直观展示。文章强调了数据预处理和可视化在理解数据特性、洞察业务趋势中的重要性。
最低0.47元/天 解锁文章
1615

被折叠的 条评论
为什么被折叠?



