jupyter 复习

环境: Anaconda

需要python语法基础,对循环遍历,数据操作熟悉

安装juypter 配置点 python 最好为ana 下

时常查阅使用语法,常用英文

自动补全功能,库齐全

  1. pandas:pandas是一个强大的数据分析工具,提供了丰富的数据处理和统计分析功能,包括数据清洗、数据整理、数据聚合、数据可视化等。

  2. NumPy:NumPy是Python的一个科学计算库,提供了高效的多维数组操作功能,可以进行各种统计分析,如平均值、中位数、方差、标准差等。

  3. matplotlib:matplotlib是一个用于绘制图表和可视化数据的库,可以用来展示描述性统计分析的结果。

Panda:

简写pd.

数据结构

series,DataFrame,index

概念区别: 一维,二维(保存多个series,各个类型不同),标识(重要对象)

数据读取和写入:

1.read_csv()    to_csv()

read  

表中存在中文,encoding=”gbk",

2.read_excel()         to_excel()

3 read_sql()   连接数据库,账号密码及端口号,建库

from sqlalchemy import create_engine
engine= create_engine('mysql+pymsql://root:root@10.53.135.85:3306/pydb?charset=utf8')
engine
数据处理和转换

数据替代 参数   ,inplace

针对DataFrame 操作

DataFrame 基础属性有values,index,colunms,dtypes(是数据类型,键.dtype df.info 查看)

列columns 属性设置   rows  (axis 设置 0行1列)

单独索引设置:

df1 = pd.read_excel('C:/Users/Administrator/Desktop/06/超市营业额2.xlsx',index_col=0,usecols=['工号','姓名','交易额','柜台'])
df1

head() tail() 头尾显示

排序

sort_values()  sort_index()

查询:切片查 联合查
数值型

describe() 包括均值,标准差,最小值,最大值

特征型

count() 数目 top() freq()

数据处理

视情况:

drop() dropna()    

fillna()   缺失值删

 apply()  应用函数 作用DataFrame 行和列  

merge() groupby()区别

sort_values() 

##数据分析流程

收删录查

可视化流程

matlib  plt

图形种类:

柱状图


plt.figure(figsize=(12, 6))
plt.bar(top10["Country"], top10["Quantity"])
plt.xlabel("Country")
plt.ylabel("Quantity")
plt.title("购买商品数前十国家")
plt.xticks(rotation=45)
plt.show()
 

折线图

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值