Python 的数据处理
Python 的数据清洗
1.数据处理,查看数据是都有缺失值,缺失大于0.98 全部删除那列。

2. 特征值一模一样的进行删除。

3. 依据逻辑删除不可能会用的列,建模不会用到的。

4. 某列缺失值高于80%,不属于业务问题的也可直接删除,如果是特征先保留,观察。


- 再次查看数据清洗后的特征,用a. isna().mean()。

6.查看数据类型,日期的转化为日期,数量转化为整数,价格为小数,文本 = object 。

7.修改类型
df23.astype({’*贝ID’:‘object’}) 将原数据的id 类型用字典形式进行astype({ a,a.value}) 进行修改。
df23.reset_index(drop=True,inplace=True) 去掉之前的索引,重置索引,这里从0开始。

8. 将df 进行描述性统计的转置,方便观察。

9.查看前几行的数据。

Python 的数据业务分析
- 查看各种类品的重要指标销量,销售额,利润之和,通过 groupby 进行分类。

2.查看各类之间的分布。

3.byclass.plot.pie(autopct=’%.2f’) 表示通过品类分类表示去掉 % ,保留.2 位小数点, 表示占位 。

4.选择 df [df["类别]==“A”] 表示选择A类的进行分析。

5.将这一品类售价描述并画图。


6.价格之间的区间划分。

7.各宝贝之间得竞争力度。


- 销售额贡献度更青睐于*猫。

- 提取排名前5%得销售额。

10.分析找出市场销售额高,而相对竞争力度小得产品。

11.市场份额较高的是相对竞争力度较大的。

- 非中英文字符。

13.-基于 TF-IDF 算法的关键词抽取


本文介绍了Python在数据清洗和业务分析中的应用,包括删除缺失值、转换数据类型、特征选择、描述性统计和数据可视化。通过数据处理,如处理缺失值、删除重复特征,以及对特定列的操作,来优化数据集。此外,文章还探讨了通过groupby进行分类分析,绘制饼图以了解各分类的占比,并利用TF-IDF算法进行关键词抽取。
492

被折叠的 条评论
为什么被折叠?



