没有我Python数据分析做不到的事!浅谈Python数据分析基本介绍。


前言

都说不会数据分析就等于没学Python,博主将在本文中讨论一下关于python的数据分析。
在这里插入图片描述


一、什么是数据分析

数据分析是利用数学、统计学理论与实践相结合的科学统计分析方法,对excel数据、数据库中的数据、收集大量数据、网页抓取的数据进行分析,从中提取有价值的信息并形成结论进行展示的过程。

二、数据分析类型

数据分析类型有三种:

  • 描述性统计分析
  • 探索性数据分析
  • 验证性数据分析

三、数据分析基本流程

熟悉工具—明确目的—获取数据—数据处理—数据分析—验证结果—结果呈现—数据应用
在这里插入图片描述

四、Pandas统计分析

Pandas是python的核心数据分析支持库,它提供了大量快速便捷处理数据的方法。

五、一些基础代码

import pandas as pd

# Series 类似一维数组 
# 创建series对象
pd.Series(data,index)  #data可指字典、数组、标量值;index指行标签(索引)  注意 当data是多维数组时,index长与data一致

-----------------我是分割线------------------------------

# Series的索引
s1=pd.Series([1,3,5],index=['ni','hao','ya'])  # 标签索引,通过一个标签获得索引值
s2=pd.Series(s1['ni':'hao'])  # 通过切片获取数据(包头包尾)

----------------我是分割线--------------------------------

# 获取Series索引和值
s3=pd.Series([4,2,6])
print(s3.index)  # 获取索引
print(s3.values)  # 获取值

----------------我是分割线--------------------------------

# DataFrame(二维表数据结构)
# 创建 DataFrame 对象
pd.DataFrame(data,index,columns,dtype,copy)  # data可以是数组、列表、字典和Series对象;index对应行,columns对应列

----------------我是分割线--------------------------------

# 通过字典创建DataFrame 注意 单个数据每行添加相同的数据,例如此处的“bangji”
df=pd.DataFrame({'yuwen':[110,106,99],'shuxue':[88,99,100],'banji':'7ban'},index=[0,1,2])
df.T  # 行列数据转换
df.head()  # 查看前n条数据,默认5条
df.tail()  # 查看后n条数据,默认5条
df.shape[0]  # 查看行数
df.shape[1]  # 查看列数
df.info  # 查看索引、数据类型、内存信息

----------------我是分割线--------------------------------

# 导入数据
#例如 pd.read_excel()、pd.read_csv()、pd.read_html()
df1=pd.read_excel('1.xlsx',index-col=0)   # 指定行索引导入excel 要设置index-col参数
df2=pd.read_excel('1.xlsx',header=1)  # 指定列索引 设置header参数,当数字作为列索引 header=None
df3=pd.read_excel('1.xlsx',usercols=[0])  # 导入指定列数据 usercols(也可导入多值)

----------------我是分割线--------------------------------

# 数据抽取(可抽取一行,抽取多行,任意多行)
df.loc[]  # 行名,列名做参数
df.iloc[]  # 行、列位置索引作参数
df.iloc[0:4]  # 抽取从第1行到第4行

#抽取指定:1、直接用列名,如下:
df=pd.DataFrame(data=data,index=name,columns=columns)
df1=df[['yuwen','shuxue']]
# 2、使用loc和iloc属性
df.iloc[:,[0,1]]  # 抽第一行和第二列
df.iloc[:,:2]  # 连续抽取第1列和第3列(不包括第三列)
df.iloc[[1],[2]]  # 抽取第2行第3列

----------------我是分割线--------------------------------

# 数据合并 merge() concat()
# 其中对于merge()两个DataFrame要有同名的列!!
df=pd.merge(df1,df2,right_index=True,left_index=True)  # 通过索引合并数据 df1和df2均为DataFrame对象
df.pd.merge(df1,df2,on='bianhao',how='left')  # 对合并数据去重,例如bianhao存在重复列
df=pd.merge(df1,df2,on='')  # 多对一的数据合并
df=pd.merge(df1,df2)  # 多对多的数据合并

# axis=0表示行 axis=1表示列
pd.concat(obj,axis=0,join='',ignore_index: keys=None ……)

dfs=[df1,df2,df3]
result=pd.concat(dfs)  # 相同字段表首尾相接(纵向)
result=pd.concat(df1,df3],axis=1)  # 横向表合并,当合并到数据列名不一致,设置axis=1
result=pd.concat([df1,df2],axis,join='inner')  # 交叉合并 加上join参数 inner表交集 outer表并集
result=pd.concat([df1,df4],axis=1,join_axes=[df4,index])

----------------我是分割线--------------------------------

# 数据导出
to_excel()、to_csv()
#导出多个sheet
work=pd.ExcelWriter('2.xlsx')  #先打开一个xlsx文件
df['A'].to_excel(work,sheet_name='df3')  # 再使用to_excel导出指定的sheet

----------------我是分割线--------------------------------

#数据计算
DataFrame.sum(axis=None,skipna=None,level=None,……)  # 求和 skipna为布尔值,level为索引值
DataFrame.mean(axis=None,skipna=None,level= ……)  # 求均值
DataFrame.min(axis=None,skipna=None,level= ……)  # 求最小
DataFrame.max(axis=None,skipna=None,level= ……)  # 求最大
DataFrame.median(axis=None,skipna=None,level= ……)  # 求中位数
DataFrame.mode(axis=0,numeric_only=False,dropna=True ……)  # 求众数 dropna表示删除缺失值
DataFrame.var(axis=None,skipna=None,level=None,ddof=1 ……)  # 求方差
DataFrame.std(axis=None,skipna=None,level= ……)  # 求标准差
DataFrame.quantile(q=0.5,axis=0,numeric_only=Trye,interpdation='linear' ……)  # 求分位数

----------------我是分割线--------------------------------

#数据分组统计
df1=df[['yiji','7tian','dingdan']]
df1.groupby('yiji').sum()  # 分组统计求和
df1.groupby(['yiji','7tian']).sum()  # 多列分组统计求和
df1.groupby('yiji')['7tian'].sum()  # 先按一级分组,再抽取‘7tian’列再求和
df1.groupby('yiji').agg(['mean','sum')  # 对分组结果使用聚合

六、Matplotlib 可视化数据分析图表

import matplotlib.pyplot as plt
plt.plot(x,y,format_string,……)  # 格式 x代表x轴 y代表y轴 format_string控制曲线格式字符串,如颜色,线条样式等
plt.figure(num=None,figsize=None,dpi=None,…… )  # 设置画布 num表示图像编号 figsize表示画布宽高 dpi表示分辨率
xlabel()  # x轴标题
ylabel()  # y轴标题
xticks(loc,[labels],**kwargs)  # 坐标轴刻度 locs(数组)表示数组x轴上的刻度 [labels]表示 数组决定位置的标签。若赋空值,则x轴有刻度
yticks(loc,[labels],**kwargs)  # 坐标轴刻度 locs(数组)表示数组y轴上的刻度 [labels]表示 数组决定位置的标签。若赋空值,则x轴有刻度
x.lim(1,14)  # x坐标轴范围
y.lim()  #y坐标轴范围

关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

👉优快云大礼包:《Python入门资料&实战源码&安装工具】免费领取安全链接,放心点击

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述

二、Python基础学习视频

② 路线对应学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~在这里插入图片描述
在这里插入图片描述

③练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述
因篇幅有限,仅展示部分资料

三、精品Python学习书籍

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
在这里插入图片描述

四、Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
在这里插入图片描述

②Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
在这里插入图片描述

③Python小游戏源码

如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
在这里插入图片描述

五、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述

六、Python兼职渠道

而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
在这里插入图片描述
在这里插入图片描述
这份完整版的Python全套学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值