- 这篇博文是Python入门(后传—天池龙珠计划)的最后部分,主要是介绍一个完整的数据分析实战流程
- 学习交流欢迎联系 obito0401@163.com
赛题来源
- 此次数据分析实战的题目、数据及教程来自阿里云天池的【Python入门系列】用Pandas揭秘美国选民的总统喜好
- 此教程根据其官方提供的baseline写就
- 由于时间精力原因,本篇博客仅对其baseline所提供的数据分析流程进行探讨,不涉及里面具体的代码实现,如有疑问欢迎联系交流
分析流程
数据建立
import pandas as pd
- 加载数据:
pd.read_csv() - 关联数据:
pd.merge() - 数据转换:
pd.DataFrame()
数据清洗
- 查看数据大小:
df.shape - 查看数据信息:
df.info() - 缺失值填充:
<>.fillna() - 类型转换:
<>.astype() - 描述统计:
<>.describe()(<>.describe(include=["object"])可以查看所有字段信息)
数据分析
- 分组统计:
df.groupby() - 数据求和:
<>.sum() - 数据排序:
<>.sort_values() - 数量统计:
<>.value_counts()
数据可视化
- 柱状图:
df.plot(kind='bar') - 饼状图:
df.plot.pie() - 词云图:
WordCloud - 桑葚图:
from pyecharts import sankey
博客小结
由于某些原因,目前只能以该方式结束这一Python入门(后传—天池龙珠计划),再见。
相聚有时,后会无期!
本文通过阿里云天池平台的实战案例,介绍了使用Python进行数据分析的基本流程,包括数据建立、清洗、分析及可视化等环节。

被折叠的 条评论
为什么被折叠?



