文章目录
前言
都说不会数据分析就等于没学Python,博主将在本文中讨论一下关于python的数据分析。
一、什么是数据分析
数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法,对excel数据、数据库中的数据、收集大量数据、网页抓取的数据进行分析,从中提取有价值的信息并形成结论进行展示的过程。
二、数据分析类型
数据分析类型有三种:
- 描述性统计分析
- 探索性数据分析
- 验证性数据分析
三、数据分析基本流程
熟悉工具—明确目的—获取数据—数据处理—数据分析—验证结果—结果呈现—数据应用
四、Pandas统计分析
Pandas是python的核心数据分析支持库,它提供了大量快速便捷处理数据的方法。
五、一些基础代码
import pandas as pd
# Series 类似一维数组
# 创建series对象
pd.Series(data,index) #data可指字典、数组、标量值;index指行标签(索引) 注意 当data是多维数组时,index长与data一致
-----------------我是分割线------------------------------
# Series的索引
s1=pd.Series([1,3,5],index=['ni','hao','ya']) # 标签索引,通过一个标签获得索引值
s2=pd.Series(s1['ni':'hao']) # 通过切片获取数据(包头包尾)
----------------我是分割线--------------------------------
# 获取Series索引和值
s3=pd.Series([4,2,6])
print(s3.index) # 获取索引
print(s3.values) # 获取值
----------------我是分割线--------------------------------
# DataFrame(二维表数据结构)
# 创建 DataFrame 对象
pd.DataFrame(data,index,columns,dtype,copy) # data可以是数组、列表、字典和Series对象;index对应行,columns对应列
----------------我是分割线--------------------------------
# 通过字典创建DataFrame 注意 单个数据每行添加相同的数据,例如此处的“bangji”
df=pd.DataFrame({'yuwen':[110,106,99],'shuxue':[88,99,100],'banji':'7ban'},index=[0,1,2])
df.T # 行列数据转换
df.head() # 查看前n条数据,默认5条
df.tail() # 查看后n条数据,默认5条
df.shape[0] # 查看行数
df.shape[1] # 查看列数
df.info # 查看索引、数据类型、内存信息
----------------我是分割线--------------------------------
# 导入数据
#例如 pd.read_excel()、pd.read_csv()、pd.read_html()
df1=pd.read_excel('1.xlsx',index-col=0) # 指定行索引导入excel 要设置index-col参数
df2=pd.read_excel('1.xlsx',header=1) # 指定列索引 设置header参数,当数字作为列索引 header=None
df3=pd.read_excel('1.xlsx',usercols=[0]) # 导入指定列数据 usercols(也可导入多值)
----------------我是分割线--------------------------------
# 数据抽取(可抽取一行,抽取多行,任意多行)
df.loc[] # 行名,列名做参数
df.iloc[] # 行、列位置索引作参数
df.iloc[0:4] # 抽取从第1行到第4行
#抽取指定:1、直接用列名,如下:
df=pd.DataFrame(data=data,index=name,columns=columns)
df1=df[['yuwen','shuxue']]
# 2、使用loc和iloc属性
df.iloc[:,[0,1]] # 抽第一行和第二列
df.iloc[:,:2] # 连续抽取第1列和第3列(不包括第三列)
df.iloc[[1],[2]] # 抽取第2行第3列
----------------我是分割线--------------------------------
# 数据合并 merge() concat()
# 其中对于merge()两个DataFrame要有同名的列!!
df=pd.merge(df1,df2,right_index=True,left_index=True) # 通过索引合并数据 df1和df2均为DataFrame对象
df.pd.merge(df1,df2,on='bianhao',how='left') # 对合并数据去重,例如bianhao存在重复列
df=pd.merge(df1,df2,on='') # 多对一的数据合并
df=pd.merge(df1,df2) # 多对多的数据合并
# axis=0表示行 axis=1表示列
pd.concat(obj,axis=0,join='',ignore_index: keys=None ……)
dfs=[df1,df2,df3]
result=pd.concat(dfs) # 相同字段表首尾相接(纵向)
result=pd.concat(df1,df3],axis=1) # 横向表合并,当合并到数据列名不一致,设置axis=1
result=pd.concat([df1,df2],axis,join='inner') # 交叉合并 加上join参数 inner表交集 outer表并集
result=pd.concat([df1,df4],axis=1,join_axes=[df4,index])
----------------我是分割线--------------------------------
# 数据导出
to_excel()、to_csv()
#导出多个sheet
work=pd.ExcelWriter('2.xlsx') #先打开一个xlsx文件
df['A'].to_excel(work,sheet_name='df3') # 再使用to_excel导出指定的sheet
----------------我是分割线--------------------------------
#数据计算
DataFrame.sum(axis=None,skipna=None,level=None,……) # 求和 skipna为布尔值,level为索引值
DataFrame.mean(axis=None,skipna=None,level= ……) # 求均值
DataFrame.min(axis=None,skipna=None,level= ……) # 求最小
DataFrame.max(axis=None,skipna=None,level= ……) # 求最大
DataFrame.median(axis=None,skipna=None,level= ……) # 求中位数
DataFrame.mode(axis=0,numeric_only=False,dropna=True ……) # 求众数 dropna表示删除缺失值
DataFrame.var(axis=None,skipna=None,level=None,ddof=1 ……) # 求方差
DataFrame.std(axis=None,skipna=None,level= ……) # 求标准差
DataFrame.quantile(q=0.5,axis=0,numeric_only=Trye,interpdation='linear' ……) # 求分位数
----------------我是分割线--------------------------------
#数据分组统计
df1=df[['yiji','7tian','dingdan']]
df1.groupby('yiji').sum() # 分组统计求和
df1.groupby(['yiji','7tian']).sum() # 多列分组统计求和
df1.groupby('yiji')['7tian'].sum() # 先按一级分组,再抽取‘7tian’列再求和
df1.groupby('yiji').agg(['mean','sum') # 对分组结果使用聚合
六、Matplotlib 可视化数据分析图表
import matplotlib.pyplot as plt
plt.plot(x,y,format_string,……) # 格式 x代表x轴 y代表y轴 format_string控制曲线格式字符串,如颜色,线条样式等
plt.figure(num=None,figsize=None,dpi=None,…… ) # 设置画布 num表示图像编号 figsize表示画布宽高 dpi表示分辨率
xlabel() # x轴标题
ylabel() # y轴标题
xticks(loc,[labels],**kwargs) # 坐标轴刻度 locs(数组)表示数组x轴上的刻度 [labels]表示 数组决定位置的标签。若赋空值,则x轴有刻度
yticks(loc,[labels],**kwargs) # 坐标轴刻度 locs(数组)表示数组y轴上的刻度 [labels]表示 数组决定位置的标签。若赋空值,则x轴有刻度
x.lim(1,14) # x坐标轴范围
y.lim() #y坐标轴范围
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
👉优快云大礼包:《Python入门资料&实战源码&安装工具】免费领取(安全链接,放心点击)
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python基础学习视频
② 路线对应学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~在这里插入图片描述
③练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
因篇幅有限,仅展示部分资料
三、精品Python学习书籍
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python工具包+项目源码合集
①Python工具包
学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
②Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
③Python小游戏源码
如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
六、Python兼职渠道
而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
这份完整版的Python全套学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
