环境: Anaconda
需要python语法基础,对循环遍历,数据操作熟悉
安装juypter 配置点 python 最好为ana 下
时常查阅使用语法,常用英文
自动补全功能,库齐全
-
pandas:pandas是一个强大的数据分析工具,提供了丰富的数据处理和统计分析功能,包括数据清洗、数据整理、数据聚合、数据可视化等。
-
NumPy:NumPy是Python的一个科学计算库,提供了高效的多维数组操作功能,可以进行各种统计分析,如平均值、中位数、方差、标准差等。
-
matplotlib:matplotlib是一个用于绘制图表和可视化数据的库,可以用来展示描述性统计分析的结果。
Panda:
简写pd.
数据结构
series,DataFrame,index
概念区别: 一维,二维(保存多个series,各个类型不同),标识(重要对象)
数据读取和写入:
1.read_csv() to_csv()
read
表中存在中文,encoding=”gbk",
2.read_excel() to_excel()
3 read_sql() 连接数据库,账号密码及端口号,建库
from sqlalchemy import create_engine
engine= create_engine('mysql+pymsql://root:root@10.53.135.85:3306/pydb?charset=utf8')
engine
数据处理和转换
数据替代 参数 ,inplace
针对DataFrame 操作
DataFrame 基础属性有values,index,colunms,dtypes(是数据类型,键.dtype df.info 查看)
列columns 属性设置 rows (axis 设置 0行1列)
单独索引设置:
df1 = pd.read_excel('C:/Users/Administrator/Desktop/06/超市营业额2.xlsx',index_col=0,usecols=['工号','姓名','交易额','柜台'])
df1
head() tail() 头尾显示
排序
sort_values() sort_index()
查询:切片查 联合查
数值型
describe() 包括均值,标准差,最小值,最大值
特征型
count() 数目 top() freq()
数据处理
视情况:
drop() dropna()
fillna() 缺失值删
apply() 应用函数 作用DataFrame 行和列
merge() groupby()区别
sort_values()
##数据分析流程
收删录查
可视化流程
matlib plt
图形种类:
柱状图
plt.figure(figsize=(12, 6))
plt.bar(top10["Country"], top10["Quantity"])
plt.xlabel("Country")
plt.ylabel("Quantity")
plt.title("购买商品数前十国家")
plt.xticks(rotation=45)
plt.show()
折线图